gpt4 book ai didi

java - 从 XML 文件中提取字数统计

转载 作者:太空宇宙 更新时间:2023-11-04 07:59:05 27 4
gpt4 key购买 nike

(这个问题与我之前在 stackoverflow 上发布的上一个问题相关......这是链接

Extracting Values From an XML File Either using XPath, SAX or DOM for this Specific Scenario )

问题是,如果我想获取每个参与者在所有句子中写下的单词,请记住上述情况,而不是获取句子。例如。如果“预算”一词总共使用了十次,其中参与者“Dolske”使用了七次,其他人使用了三次。所以我需要所有单词的列表以及每个参与者写了多少次?还有每轮的单词列表?

实现这一目标的最佳策略是什么?有示例代码吗?

XML附在此处(您也可以在提到的问题中检查它)

“(495584) Firefox - 搜索建议传递错误的先前结果以形成历史记录”

<Turn>
<Date>'2009-06-14 18:55:25'</Date>
<From>'Justin Dolske'</From>
<Text>
<Sentence ID = "3.1"> Created an attachment (id=383211) [details] Patch v.2</Sentence>
<Sentence ID = "3.2"> Ah. So, there's a ._formHistoryResult in the....</Sentence>
<Sentence ID = "3.3"> The simple fix it to just discard the service's form history result.</Sentence>
<Sentence ID = "3.4"> Otherwise it's trying to use a old form history result that no longer applies for the search string.</Sentence>
</Text>
</Turn>

<Turn>
<Date>'2009-06-19 12:07:34'</Date>
<From>'Gavin Sharp'</From>
<Text>
<Sentence ID = "4.1"> (From update of attachment 383211 [details])</Sentence>
<Sentence ID = "4.2"> Perhaps we should rename one of them to _fhResult just to reduce confusion?</Sentence>
</Text>
</Turn>

<Turn>
<Date>'2009-06-19 13:17:56'</Date>
<From>'Justin Dolske'</From>
<Text>
<Sentence ID = "5.1"> (In reply to comment #3)</Sentence>
<Sentence ID = "5.2"> &amp;gt; (From update of attachment 383211 [details] [details])</Sentence>
<Sentence ID = "5.3"> &amp;gt; Perhaps we should rename one of them to _fhResult just to reduce confusion?</Sentence>
<Sentence ID = "5.4"> Good point.</Sentence>
<Sentence ID = "5.5"> I renamed the one in the wrapper to _formHistResult. </Sentence>
<Sentence ID = "5.6"> fhResult seemed maybe a bit too short.</Sentence>
</Text>
</Turn>

...... 等等

我们将非常感谢您的帮助...

最佳答案

获取所有值,最好使用 sTax 解析器,它对于此类任务很有用。然后将所有句子拆分成单词并做任何你想做的事情。就像使用 Class Turn 创建一个模型一样,您可以在其中存储作者和句子,为此类编写服务并继续。 :)

要按单词分割句子,请使用 split() 或 StringTokenizer,但不推荐使用 tokenizer。要使用 split,请创建一个临时数组,例如

stringArray = sentence.toString().split(" "); 

或者像“sentence.getValue()”,等等。

在方法参数中放置正则表达式。在你的例子中,它是一个简单的空格,因为它分割了句子。然后你就可以检查单词并计算你需要的内容。

如果是 ArrayList,请使用 List.toArray() 在数组 View 中获取列表。

关于java - 从 XML 文件中提取字数统计,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13118026/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com