gpt4 book ai didi

console - openoffice 可以从控制台计算单词吗?

转载 作者:行者123 更新时间:2023-12-04 20:47:27 24 4
gpt4 key购买 nike

我有一个小问题,我需要计算控制台内的字数才能阅读 doc、docx、pptx、ppt、xls、xlsx、odt、pdf ......所以不要建议我 | wc -w 或 grep 因为它们只适用于文本或控制台输出,它们只计算空格,而在日语、中文、阿拉伯语、印度语、希伯来语中,它们使用不同的分隔符,所以字数是错误的,我试图用这个来计数

pdftotext file.pdf -| wc -w
/usr/local/bin/docx2txt.pl < file.docx | wc -w
/usr/local/bin/pptx2txt.pl < file.pptx | wc -w
antiword file.doc -| wc -w
antiword file.word -| wc -w

在某些情况下,microsoft word、openoffice sad 1000 个单词,如果语言是(日语、中文、印度教等),则计数器返回 10 或 300 个单词,但如果我使用普通字符,那么我没有问题,最大的错误是在某些情况下,少 3 个字符的女巫是“OK”

我尝试使用 soffice 、 openoffice 进行转换,然后尝试 WC -w 但我什至无法转换,
soffice --headless --nofirststartwizard --accept=socket,host=127.0.0.1,port=8100; --convert-to pdf some.pdf /var/www/domains/vocabridge.com/devel/temp_files/23/0/东京_1000_words_Docx.docx 

或者
 openoffice.org  --headless  --convert-to  ........

或者
openoffice.org3 --invisible 

因此,如果有人知道使用 openoffice 或其他任何东西或 linux 使用控制台正确计数或显示文档统计信息的任何方法,请分享它

谢谢。

最佳答案

如果您有 Microsoft Word(当然还有 Windows),您可以编写 VBA 宏,或者如果您想直接从命令行运行,您可以使用如下内容编写 VBScript 脚本:

wordApp = CreateObject("Word.Application")
doc = ... ' open up a Word document using wordApp
docWordCount = doc.Words.Count
' Rinse and repeat...

如果您有 OpenOffice.org/LibreOffice,您有类似(但更多)的选择。如果您想留在办公室应用程序中并运行宏,您可以这样做。我不太了解 StarBasic API,无法告诉您如何操作,但我可以为您提供替代方案:创建一个 Python 脚本以从命令行获取字数。粗略地说,您执行以下操作:
  • 从命令行使用适当的参数启动您的 OOo/LibO 副本以接受传入的套接字连接。 http://www.openoffice.org/udk/python/python-bridge.html有关于如何做到这一点的说明。去那里并使用浏览器的页内查找功能搜索`accept=socket'
  • 编写一个 Python 脚本以使用 OOo/LibO UNO 桥(基本上相当于上面的 VBScript 示例)一次打开一个 Word/ODT 文档并获取每个文档的字数。上面的页面应该为您提供了一个良好的开端。
  • 您可以从文档模型对象的 WordCount 属性中获取字数:http://www.openoffice.org/api/docs/common/ref/com/sun/star/text/GenericTextDocument.html#WordCount
  • 关于console - openoffice 可以从控制台计算单词吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15126983/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com