gpt4 book ai didi

python - 如何计算复杂文档(.rtf、.doc、.odt 等)中的字数?

转载 作者:太空狗 更新时间:2023-10-30 02:50:31 25 4
gpt4 key购买 nike

我正在尝试编写一个 Python 函数,该函数在给定文档文件路径的情况下返回该文档中的字数。这对 .txt 文件来说相当容易,并且有一些工具可以让我破解对一些更复杂的文档格式的支持,但我想要一个真正全面的解决方案。

查看 OpenOffice.org 的 py-uno 脚本接口(interface)和支持的格式列表,在 headless OOo 中加载文档并调用其字数统计功能似乎是理想的选择。但是,我找不到任何超越基本文档生成的 py-uno 教程或示例代码,甚至我找到的代码片段都已经过时五年了,不再有效。

无论是否使用 OOo 和 Uno,我如何才能对各种格式的文档进行可靠的字数统计?

最佳答案

在 headless OOo 中加载文档 并调用它的 word-count function

PyODConverter是最近 (11-2009) 使用 OOo 转换多种文件类型的脚本。查看脚本,它基本加载了所有 OOo 支持的文档。

这就是将 OOo 作为 headless 服务启动的方式:

soffice -headless -accept="socket,host=127.0.0.1,port=8100;urp;"-nofirststartwizard

然后您只需编写一个小型 Bootstrap ,在命令行上调用 OOo,运行您的脚本,然后关闭 OOo。


关于python - 如何计算复杂文档(.rtf、.doc、.odt 等)中的字数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2256881/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com