gpt4 book ai didi

Python 文档 : Extract tables between two given strings

转载 作者:行者123 更新时间:2023-11-28 18:37:22 24 4
gpt4 key购买 nike

我正在尝试提取在 word 文档中两段文本之间找到的特定表格列表。我正在为此使用 python docx,我面临的是可以通过使用

来解析文本
document.paragraphs[index].text

而表是通过using解析的

document.tables[index].cell[row,col]

这将文本和表格分开,使得仅在两段文本之间包含表格列表变得更加困难。我正在尝试的方法是使用下面表格中每个列表的元素来获取段落/表格的地址。

<docx.text.paragraph.Paragraph object at 0x04299FD0>

然后我会提取每个表的地址并检查它是否在开始和结束文本地址之间。但是,问题是所有的表地址都大于文本的开始和结束地址,我找不到任何关于 python docx 如何找到这些地址的文档,因为我假设地址在文档中是连续的。这个方法行得通吗?我可以尝试使用什么其他方法来查看 word 文档中两段文本之间的那些表格?

最佳答案

此处描述了此限制的解决方法: https://github.com/python-openxml/python-docx/issues/40

你会想要向下滚动到末尾,也许会以相反的顺序和正常的方式阅读;根据最近版本对 python-docx 内部结构的更改,对过程进行了一些调整。

为如下所示的对象出现的地址指的是内存位置,与 python-docx 文档中的段落顺序或其他内容没有定义的关系。它们可以作为该 Python 内存对象的唯一标识符,但仅此而已。请注意谨慎使用术语“内存对象”而不是“文档对象”。例如,如果创建的两个对象都引用文档中的同一段落,它们将具有两个不同的地址。

<docx.text.paragraph.Paragraph object at 0x04299FD0>

可以使用 Python 中的 id() 函数访问这些值。 https://docs.python.org/2/library/functions.html#id

关于Python 文档 : Extract tables between two given strings,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31189517/

24 4 0
文章推荐: ios - UITableViewCell 的子类不显示文本
文章推荐: javascript - 如何获取 DOM 中附近节点上的
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com