java - 计算java中多个文件/文档中的词频-6ren

java - 计算java中多个文件/文档中的词频

转载作者：塔克拉玛干更新时间：2023-11-02 08:20:07

24

4

我想计算 java 中多个文件/文档的词频。

例如

a1 = {aaa,aaa,aaa,bbb}
a2 = {aaa, aaa, hhh}
a3 = {aaa, hhh, bbb, bbb}

所以，我想计算每个文件的词频:

for a1 file {aaa = 3, bbb = 1}
for a2 file {aaa = 2, hhh = 1}
for a3 file {aaa = 1, hhh = 1, bbb =2}

我有一个方法可以从 file 中读取单词然后，存储 <wordname, worcount>在LinkedHashMap .尽管如此，它会计算所有文件中特定单词的频率，但我想分别计算每个文件的单词频率。

有人有解决办法吗？

然后，我写了这个:

Set mapset = fileToWordCount.keySet();           

for(Object filenameFromMap: mapset){
      System.out.println("FILENAME::"+filenameFromMap);
}

但是，它不打印任何东西。

最佳答案

您可以创建另一个 Map，将文件名映射到包含字数的 LinkedHashMap。所以你会得到这样的东西:

Map<String, LinkedHashMap<String, Integer>> fileToWordCount = new HashMap<String, LinkedHashMap<String, Integer>();

然后，对于每个文件，您将像往常一样构建词频并以这种方式将值添加到上面的 map 中:

fileToWordCount.put(file.getPath(), wordCountMap);

关于java - 计算java中多个文件/文档中的词频，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13493218/

24

4

0

Java - 词频
我在 Eclipse 中创建了一个 Java 程序。该程序计算每个单词的频率。例如，如果用户输入“I went to the shop”，程序将产生输出“1 1 1 2”，即 1 个字长 1 ('I'
r - R 中的文本分析 - 词频
我在工作中只有 R 可用，而且我以前用 Python 做过。我需要获取 CSV 文件中每组事件的计数。我在 Python 中进行了情绪分析，我在提供的表格中搜索了一本 Python 字典，其中包含每个
c++ - 词频 strcmp 使用结构数组无限工作
我想一个字一个字地读，然后将哪个字与我的结构数组中的字进行比较。如果我没有，我想在第一个空位添加。 #include #include #include #include using names
python - 使用文本搭配计算 ngram 词频
我想计算已转换为标记的文本文件中特定单词前后三个单词的频率。 from nltk.tokenize import sent_tokenize from nltk.tokenize import wor
java - 词频 - HashMap 或 TreeMap
我需要编写一个程序来计算文本中每个单词的频率，此外我需要能够返回 n 个最常用单词的列表(如果更多单词具有相同的频率(它们按字母顺序排序)。还有一个未计算在内的单词列表(停用词)。停用词使用什么结构
python - sklearn 的 TfidfVectorizer 词频？
我对 sklearn 的 TfidfVectorizer 在计算每个文档中单词的频率时有一个疑问。我看到的示例代码是: >>> from sklearn.feature_extraction.tex