- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我正在做一个数据库自主项目。我有一个输入文件来自:http://ir.dcs.gla.ac.uk/resources/test_collections/cran/
在处理成 1400 个单独的文件后,每个文件名为 00001.txt,... 01400.txt...)并在应用词干分析 关于它们,我会将它们单独存储在一个特定的文件夹中,我们将其命名为 StemmedFolder,格式如下:
在 StemmedFolder: 00001.txt 中包括:
investig
aerodynam
wing
slipstream
brenckman
experiment
investig
aerodynam
wing
在 StemmedFolder: 00756.txt 中包括:
remark
eddi
viscos
compress
mix
flow
lu
ting
等等....
我写的代码是:
{我可以为这 4 个部分提供我的代码,以防有人需要查看实现、更改或任何编辑情况
每个文件的输出将结果到一个单独的文件。 (1400,每个都命名为 00001.txt,00002.txt...)在一个特定的文件夹中让我们称之为 FrequenceyFolder 格式如下:
在 FrequenceyFolder: 00001.txt 中包括:
00001,aerodynam,2
00001,agre,3
00001,angl,1
00001,attack,7
00001,basi,4
....
在 FrequenceyFolder: 00999.txt 中包括:
00999,aerodynam,5
00999,evalu,1
00999,lift,3
00999,ratio,2
00999,result,9
....
在 FrequenceyFolder: 01400.txt 中包括:
01400,subtract,1
01400,support,1
01400,theoret,1
01400,theori,1
01400,.....
__________
现在我的问题:
我需要再次合并这1400个文件,通过一些计算输出一个类似这种格式的txt文件:
'aerodynam' totalFrequency=3docs: [[Doc_00001,5],[Doc_01344,4],[Doc_00123,3]]
'book' totalFrequncy=2docs: [[Doc_00562,6],[Doc_01111,1]
....
....
'result' totalFrequency=1doc: [[Doc_00010,5]]
....
....
'zzzz' totalFrequency=1doc: [[Doc_01235,1]]
感谢您花时间阅读这篇长文
最佳答案
您可以使用 Map
的 List
.
Map<String,List<FileInformation>> statistics = new HashMap<>()
在上面的映射中,键是单词,值是 List<FileInformation>
。描述包含单词的单个文件的统计信息的对象。 FileInformation
类可以声明如下:
class FileInformation {
int occurrenceCount;
String fileName;
//getters and setters
}
要填充上面的 map ,请使用以下步骤:
FrequencyFolder
中的每个文件Map
中。 .FileInformation
对象并设置 occurrenceCount
找到的出现次数并设置 fileName
添加到找到它的文件的名称。将此对象添加到 List<FileInformation>
中对应于步骤 2 中创建的 key 。FileInfomation
对象并将其添加到 List<FileInformation>
对应于单词在 map 中的条目。一旦你有了 Map
人口稠密,打印统计数据应该是小菜一碟。
for(String word : statistics.keySet()) {
List<FileInformation> fileInfos = statistics.get(word);
for(FileInformation fileInfo : fileInfos) {
//sum up the occureneceCount for the word to get the total frequency
}
}
关于java - Hashmap单键持有一个类。计算 key 并检索计数器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30523883/
我在leetcode上看到这段代码,是一道求众数的题,下面是题目描述: 给定一个大小为 n 的数组,找到多数元素。众数元素是出现次数超过 ⌊ n/2 ⌋ 次的元素。 你可以假设数组是非空的并且多数元素
每次在 JavaScript 中执行特定操作时,例如: $(function() { $('#typing').keyup(function () { switch($(this)
我一直在为网页设计一个计数器,但我一直被这个我无法解决的功能所困扰。 我有一个 4 个 div 的计数器,因为其中两个是小数字,另外两个是大数字,所以第一个运行得很快,我看不到它们的功能。 有人知道如
我已经在文档中进行了一些搜索,并在网上花了一段时间,但找不到解决方案!我希望警报告诉我单击 .thumb 时它处于each() 的哪一次迭代。 EG:有六个.thumb,我点击数字3,浏览器弹出3!
在 Handlebars 中,假设我有 names 的集合.我能怎么做 {{#each names}} {{position}} {{name}} {{/each}} 在哪里 {{position}}
这个问题在这里已经有了答案: Numbering rows within groups in a data frame (9 个回答) 4年前关闭。 我们如何在数据帧的每组中生成唯一的 ID 号?以下
我正在努力解决以下问题。我希望为给定的“一”序列创建一个计数器。例如,我有以下内容: 1 1 1 1 0 0 1 1 1 0 0 1 1 1 1 鉴于该序列,我希望为 1 的每个序列设置一个计数器直到
我正在努力解决以下问题。我希望为给定的“一”序列创建一个计数器。例如,我有以下内容: 1 1 1 1 0 0 1 1 1 0 0 1 1 1 1 鉴于该序列,我希望为 1 的每个序列设置一个计数器直到
我有一个jsfiddle here 这是一个简单的 JavaScript 函数,可以计算出设定的数字。 是否可以进行这种计数,但也保留一位小数 所以它算 1.1、1.2、1.3 等。 func
我正在构建一个计数器,当我按下鼠标时,它应该增加到 maxValue 并且减少不超过 0。我还可以选择将计数器重置为其初始值:0。另外,如果 maxValue 是偶数,它应该计数到该数字。但是,如果
所以我成功地为字母和单词构建了其他计数器,但现在我只能用这个来计算句子。我的代码如下,当我运行它时,它会返回很多错误消息: #include #include #include int main
Closed. This question is off-topic。它当前不接受答案。
我需要一个计数器,它会随着某些任务的完成而递增。我们只需要最后一小时的值,即窗口将移动而不是静态时间。 解决此问题的最佳方法是什么?我能想到的一种方法是拥有一个大小为 60 的数组,每分钟一个,并更新
我希望使用计数器来为我提供独特的引用系统。我想单击一个按钮,然后检查一个字段/文件中的最后一个数字,然后简单地向其添加 1,然后将其插入到屏幕上的字段中? 不确定执行此操作的最佳方法或具体如何执行此操
我有一个用 php 制作的表格,在该表格内我显示了数据库中的一些内容。我在每个 td 中创建了一个简单的按钮(类似于 Like),我希望每次点击它都会增加 1。这是带有按钮的行: echo "
如何将数据库中的值转换为可用于 if else 函数的 int 值? 例如:在我的数据库“armnumber = 3”中,如何在 if else 函数中使用它? 代码 string myConnect
我需要生成唯一的“ids”,问题是,它只能在 1 - 99999 之间。 “好”的是,它仅在与另一列组合时必须是唯一的。 我们有组,每个组都有自己的“group_id”,每个组都需要类似 unique
有这个简单的代码: UPDATE counter SET c= c +1 where id = 1; 并且它在开头的 c 字段中为 null 的情况下不起作用。它只有在已经输入了一些数字时才有效,也就
我正在尝试在 python 中构建一个具有闭包属性的计数器。以下工作中的代码: def generate_counter(): CNT = [0] def add_one():
我使用 CSS 来计算 HTML 文档中的部分: body {counter-reset: sect;} section:before { counter-increment: sect;
我是一名优秀的程序员,十分优秀!