gpt4 book ai didi

java - 通过使用java,我如何计算字数,其结果与MS-Office字数统计功能相同

转载 作者:行者123 更新时间:2023-12-02 04:25:28 24 4
gpt4 key购买 nike

I/P 文件:带有 en-dash、em-dash 的 doc、docx

我已经使用 Apache Tika(元数据属性)和 Aspose wordtojava(库)实现了字数统计功能,但它们没有给我准确的字数统计结果。

en-dash 和 em-dash 字数统计与 MS-Office 不同前任。2—34–5结果 :对于上面的例子,MS-office 给出的字数为 4APache - Tika 和 Aspose 库给出字数 2

如何计算与 MS-Office 给出的正确字数相同的字数?

任何帮助都非常值得赞赏。

需要快速响应。

谢谢

最佳答案

将文档中的所有字符串提取到一个字符串中。使用正则表达式“[\n\t\r\f\p{Pd}]”分割它们,并计算分割后的字符串数组的长度。

    String allWords = "2—3 4–5";
String[] split = allWords.split("[\n\t\r\f \\p{Pd}]");
System.out.println(split.length);

打印 4。希望这有帮助。

关于java - 通过使用java,我如何计算字数,其结果与MS-Office字数统计功能相同,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32239427/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com