gpt4 book ai didi

python - 页码python-docx

转载 作者:太空狗 更新时间:2023-10-29 20:58:14 25 4
gpt4 key购买 nike

我试图在 python 中创建一个程序,它可以在 .docx 文件中找到特定的单词并返回它出现的页码。到目前为止,在查看 python-docx 文档时,我一直无法找到如何访问页码甚至页码所在的页脚。有没有办法使用 python-docx 甚至只是 python 来做到这一点?或者,如果不是,最好的方法是什么?

最佳答案

简短的回答是否定的,因为分页符是由渲染引擎插入的,而不是由 .docx 文件本身决定的。

但是,某些客户放置了一个 <w:lastRenderedPageBreak>保存的 XML 中的元素,以指示上次呈现页面时它们破坏页面的位置。

我不知道这是哪个做的(尽管我希望 Word 本身做)以及它的可靠性如何,但如果您想在 Python 中工作,那是我推荐的方向。您可能会使用 python-docx 来获取对您想要的 lxml 元素的引用(例如 w:document/w:body ),然后使用 XPath 命令或其他方法遍历到特定页面,但只要稍微考虑一下就会有一些在那里进行详细开发以使其正常工作。

如果您在 native Windows MS Office API 中工作,您可能会得到更好的东西,因为它实际上运行 Word 应用程序。

如果您在 python-docx 中生成文档,则不会放置这些元素,因为它不会尝试呈现文档(也不太可能)。我们也不太可能很快添加对 w:lastRenderedPageBreak 的支持;我什至不太确定那会是什么样子。

如果您搜索“lastRenderedPageBreak”和/或“python-docx 分页符”,您会在此处看到其他可能提供更多信息的问题/答案。

关于python - 页码python-docx,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36193159/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com