gpt4 book ai didi

java - 查找哈希集中每个单词在文本文档中出现的次数

转载 作者:行者123 更新时间:2023-12-01 19:04:08 26 4
gpt4 key购买 nike

我正在用 Java 实现朴素贝叶斯文本分类算法。

到目前为止我所做的是,声明一个名为 Vocabulary 的哈希集,它存储给定文本文件(测试文件)中的所有唯一单词。

该算法的步骤之一是将测试文件的所有成员连接到一个文本文件中。事实证明这是一个相当大的文件,其中包含每个文件中的单词。

现在,我必须使用连接的文本文件来计算词汇表中每个单词的出现次数。我的第一个猜测是保留一种数组结构,其中包含每个单词的频率。但话又说回来,我的条目太多了。

有人可以给我更好的建议吗?

最佳答案

使用字典(HashMap),其中单词是键,值是出现的次数。如果 HashSet 适合内存,HashMap 也应该适合。

关于java - 查找哈希集中每个单词在文本文档中出现的次数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10869103/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com