gpt4 book ai didi

python - 使用 python-docx 时缺少文档文本

转载 作者:行者123 更新时间:2023-11-30 22:22:20 24 4
gpt4 key购买 nike

我正在使用 python-docx 0.8.6 和 python 3.6 来执行简单的搜索/替换操作。

我遇到一个问题,即在迭代 doc.paragraphs 时并未显示所有文档文本

为了调试我已经尝试过

doc = Document(input_file)
fullText = []
for para in doc.paragraphs:
fullText.append(para.text)
print('\n'.join(fullText))

这似乎只打印出文件内容的大约一半。

文件中没有表格或特殊格式。 python-docx 无法读取文档的大部分内容,有什么原因吗?

编辑:丢失的文本包含在邮件合并字段中(如果有任何区别)

最佳答案

邮件合并字段确实有所作为。不幸的是,python-docx 不够复杂,无法知道哪些“容器”元素包含可显示文本,哪些不包含可显示文本。因此它只报告位于“顶层”级别的段落(和表格)。

这也是修订标记的一个限制,例如,修订标记有两段或多段文本,其中只有一段出现,具体取决于修订标记设置(显示原始内容、显示编辑后的最新内容等) .

使用 python-docx 解决这个问题的唯一方法是自己导航 XML,尽管 python-docx 中的一些域对象可能很方便,例如 段落等,一旦您掌握了所需的元素。

关于python - 使用 python-docx 时缺少文档文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48350116/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com