gpt4 book ai didi

java - 文档中的单词计数频率

转载 作者:搜寻专家 更新时间:2023-11-01 03:29:09 26 4
gpt4 key购买 nike

我有一个目录,其中有 1000 个 txt.files。我想知道每个单词在 1000 个文档中出现了多少次。所以说即使“牛”这个词在 X 中出现了 100 次,它仍然会被算作一个。如果它出现在不同的文档中,则它会递增 1。因此,如果每个文档中都出现“牛”,则最大值为 1000。如何在不使用任何其他外部库的情况下以简单的方式执行此操作。这是我目前所拥有的

     private Hashtable<String, Integer> getAllWordCount()
private Hashtable<String, Integer> getAllWordCount()
{
Hashtable<String, Integer> result = new Hashtable<String, Integer>();
HashSet<String> words = new HashSet<String>();
try {
for (int j = 0; j < fileDirectory.length; j++){
File theDirectory = new File(fileDirectory[j]);
File[] children = theDirectory.listFiles();

for (int i = 0; i < children.length; i++){
Scanner scanner = new Scanner(new FileReader(children[i]));

while (scanner.hasNext()){
String text = scanner.next().replaceAll("[^A-Za-z0-9]", "");
if (words.contains(text) == false){
if (result.get(text) == null)
result.put(text, 1);
else
result.put(text, result.get(text) + 1);
words.add(text);
}
}
}
words.clear();
}
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
System.out.println(result.size());
return result;
}

最佳答案

您还需要一个 HashSet<String>在其中存储您从当前文件中读取的每个唯一单词。

然后在每个单词读取之后,你应该检查它是否在集合中,如果不是,则在 result 中增加相应的值。映射(或者添加一个新条目,如果它是空的,就像你已经做的那样)并将单词添加到集合中。

不过,当您开始阅读新文件时,不要忘记重置设置。

关于java - 文档中的单词计数频率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5253959/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com