- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我想计算 java 中多个文件/文档的词频。
例如
a1 = {aaa,aaa,aaa,bbb}
a2 = {aaa, aaa, hhh}
a3 = {aaa, hhh, bbb, bbb}
所以,我想计算每个文件的词频:
for a1 file {aaa = 3, bbb = 1}
for a2 file {aaa = 2, hhh = 1}
for a3 file {aaa = 1, hhh = 1, bbb =2}
我有一个方法可以从 file
中读取单词然后,存储 <wordname, worcount>
在LinkedHashMap
.尽管如此,它会计算所有文件中特定单词的频率,但我想分别计算每个文件的单词频率。
有人有解决办法吗?
然后,我写了这个:
Set mapset = fileToWordCount.keySet();
for(Object filenameFromMap: mapset){
System.out.println("FILENAME::"+filenameFromMap);
}
但是,它不打印任何东西。
最佳答案
您可以创建另一个 Map
,将文件名映射到包含字数的 LinkedHashMap
。所以你会得到这样的东西:
Map<String, LinkedHashMap<String, Integer>> fileToWordCount = new HashMap<String, LinkedHashMap<String, Integer>();
然后,对于每个文件,您将像往常一样构建词频并以这种方式将值添加到上面的 map 中:
fileToWordCount.put(file.getPath(), wordCountMap);
关于java - 计算java中多个文件/文档中的词频,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13493218/
我在 Eclipse 中创建了一个 Java 程序。该程序计算每个单词的频率。例如,如果用户输入“I went to the shop”,程序将产生输出“1 1 1 2”,即 1 个字长 1 ('I'
我在工作中只有 R 可用,而且我以前用 Python 做过。我需要获取 CSV 文件中每组事件的计数。我在 Python 中进行了情绪分析,我在提供的表格中搜索了一本 Python 字典,其中包含每个
我想一个字一个字地读,然后将哪个字与我的结构数组中的字进行比较。如果我没有,我想在第一个空位添加。 #include #include #include #include using names
我想计算已转换为标记的文本文件中特定单词前后三个单词的频率。 from nltk.tokenize import sent_tokenize from nltk.tokenize import wor
我需要编写一个程序来计算文本中每个单词的频率,此外我需要能够返回 n 个最常用单词的列表(如果更多单词具有相同的频率(它们按字母顺序排序)。还有一个未计算在内的单词列表(停用词)。 停用词使用什么结构
我对 sklearn 的 TfidfVectorizer 在计算每个文档中单词的频率时有一个疑问。 我看到的示例代码是: >>> from sklearn.feature_extraction.tex
我是一名优秀的程序员,十分优秀!