- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我写了一个类似于外部排序的程序。我从 this blog 得到了一个好主意。在这里,他们试图仅对数字进行外部排序。我的要求略有不同。我的输入文件可能有超过一百万条记录,并且很难在内存中对它们进行排序,所以我必须使用我的磁盘。我将输入分成不同的部分,对其进行排序,然后将其存储在临时文件中。然后将排序后的输出合并到一个文件中。下面我可以将其拆分为临时文件,然后仅合并 key 。
我有一个输入文件如下:
key1 abc
key2 world
key1 hello
key3 tom
key7 yankie
key3 apple
key5 action
key7 jack
key4 apple
key2 xon
key1 lemon
假设磁盘上文件的大小为 10,内存缓冲区可以容纳的最大项目为 4,所以我所做的是一次获取 4 条记录并将其存储在 HashMap 中,对我的值以及更新的计数进行排序。此输入将分为 3 个排序文件,如下所示。您可以看到,对于每个键,我都有一个计数以及按字典顺序排列的最高值。
临时文件-0.txt
key1: 2, hello
key2: 1, world
key3: 1, tom
临时文件-1.txt
key5: 1, action
key3: 1, apple
key7: 2, yankie
临时文件-2.txt
key1: 1, lemon
key2: 1, xon
key4: 1, apple
合并所有这 3 个文件后,输出应如下所示:
key1: 3 lemon
key2: 2 xon
key3: 2 world
key5: 1 action
key7: 2 yankie
我不确定将整行与计数以及该键的字典最高值合并的逻辑,我的下面的代码能够给我所有键,如下所示:
key1
key1
key2
key2
key3
key4
key5
key3
key7
在下面的代码中,我打开每个文件并合并它们,然后写回磁盘到一个名为external-sorted.txt
的新单个文件
static int N = 10; // size of the file in disk
static int M = 4; // max items the memory buffer can hold
int slices = (int) Math.ceil((double) N/M);
String tfile = "temp-file-";
//Reading all the 3 temp files
BufferedReader[] brs = new BufferedReader[slices];
String[] topNums = new String[slices];
for(i = 0; i<slices; i++){
brs[i] = new BufferedReader(new FileReader(tfile + Integer.toString(i) + ".txt"));
String t = brs[i].readLine();
String[] kv = t.split(":");
if(t!=null){
topNums[i] = kv[0];
}
//topNums [key1, key5, key1]
}
FileWriter fw = new FileWriter("external-sorted.txt");
PrintWriter pw = new PrintWriter(fw);
for(i=0; i<N; i++){
String min = topNums[0];
System.out.println("min:"+min);
int minFile = 0;
for(j=0; j<slices; j++){
if(min.compareTo(topNums[j])>0)
{
min = topNums[j];
minFile = j;
}
}
pw.println(min);
String t = brs[minFile].readLine();
String[] kv = new String[2];
if (t != null)
kv = t.split(":");
topNums[minFile] = kv[0];
}
for (i = 0; i < slices; i++)
brs[i].close();
pw.close();
fw.close();
}
任何想法都值得赞赏。如果您有任何疑问,请询问。 TIA。
最佳答案
嗯,像这样的东西是有效的,我确信有更好的方法,但目前我还没有能力真正思考:
// Declare Scanner Object to read our file
Scanner in = new Scanner(new File(stringRepresentingLocationOfYourFileHere));
// create Map that will contain keys in sorted order (TreeMap)
// along with last value assigned to the key
Map<String, String> mapa = new TreeMap<>();
// another map to hold keys from first map and number of
// occurrences of those keys (repetitions), this could have been
// done using single Map as well, but whatever
Map<String, Integer> mapaDva = new HashMap<>();
// String array that will hold words of each line of our .txt file
String[] line;
// we loop until we reach end of our .txt file
while(in.hasNextLine()){
// check if map already contains given key, if it does
// increment value by 1 otherwise initialize the value with 1
if (mapa.put((line = in.nextLine().split(" "))[0], line[1]) != null)
mapaDva.put(line[0], mapaDva.get(line[0])+1);
else
mapaDva.put(line[0], 1);
}
// loop through our maps and print out keys, number of
//repetitions, last assigned value
for (Map.Entry<String, String> m : mapa.entrySet()){
System.out.println(m.getKey() + " " + mapaDva.get(m.getKey()) + " " + m.getValue());
}
如果此代码有任何不清楚的具体内容,请询问。
示例输入文件:
key1 abcd
key2 zzz
key1 tommy
key3 world
完成后输出:
key1 2 tommy
key2 1 zzz
key3 1 world
编辑2(处理多个文件时的解决方案):
// array of File objects that hold path to all your files to iterate through
File[] files = {new File("file1.txt"),
new File("file2.txt"),
new File("file3.txt")};
Scanner in;
Map<String, String> mapa = new TreeMap<>();
Map<String, Integer> mapaDva = new HashMap<>();
String[] line;
for (int i = 0; i < files.length; i++) {
// assign new File to Scanner on each iteration (go through our File array)
in = new Scanner(files[i]);
while(in.hasNextLine()){
if (mapa.put((line = in.nextLine().split(" "))[0], line[1]) != null)
mapaDva.put(line[0], mapaDva.get(line[0])+1);
else
mapaDva.put(line[0], 1);
}
}
for (Map.Entry<String, String> m : mapa.entrySet()){
System.out.println(m.getKey() + " " + mapaDva.get(m.getKey()) + " " + m.getValue());
}
因此,我们将所有 File 对象存储在 File 数组中,然后遍历每个对象,组合所有内容并打印出最终结果:
3 个示例输入文件:
文件1.txt
key1 abcd
key2 zzz
key1 tommy
key3 world
file2.txt
key1 abc
key3 xxx
key1 tommy
key6 denver
file3.txt
key5 lol
key8 head
key6 tommy
key6 denver
输出:
key1 4 tommy
key2 1 zzz
key3 2 xxx
key5 1 lol
key6 3 denver
key8 1 head
关于java - 如何使用Java根据键值对合并文件并对其进行排序?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48038178/
我在 php 方面遇到了一个小问题,我发现很难用语言来解释。我有一个包含键值的关联数组。我想制作一个函数(或者如果已经有一个函数),它将一个数组作为输入并删除重复项,但两种方式都是如此。 例如: 在我
我有一个在系统托盘中运行的应用程序,是否可以允许用户通过 C# 中的 Windows 键 + 键 恢复该应用程序? 谢谢 最佳答案 是的,使用 Windows API。我认为 Windows 键与 C
我正在使用 Waterline通过 Sails 查询 MySQL 数据库。我找到了 2 种方法。 不知道哪个更好? 顺便问一下,如何处理这两种情况的错误? 1. Model.findOne().whe
我正在尝试测试是否按下了 Alt 键。 我的支票类似于: private void ProcessCmdKey(Keys keyData) { if (keyData == Keys.Alt) {
我正在使用 Selenium WebDriver 和 Ruby 进行自动化测试。我需要点击一个按钮。我无法通过 id 或 css 或 xpath 获取按钮元素,因为按钮是透明的。我想使用 Tab 和
我是 IntelliJ 的新手,我看到一个启动提示说,“任何工具窗口中的 ⎋ 键都会将焦点移动到编辑器。”但是,我不知道⎋键是什么。我一直在编程很长时间。我的键盘上可能有一个我多年来一直错过的键吗?
我使用 OMDB API 创建了一个电影搜索页面。我遇到的问题是,如果我搜索一部包含多个单词的电影,此 API 会出错,因为 API 的 URL 必须在 URL 中的每个单词之间有 + 键。所以我想知
我已经用 Elasticsearch 玩了大约一天了,所以我非常陌生。我正在尝试 POST/import 一个简单的文件: { "compression" : "none", "com
enter image description here 在此示例中,要记录带有“title”和“director”键的属性值,使用 obj[key]。因为我们已经处于对象的执行上下文中:在本例中是电
我是新开类。 我使用新的电子邮件 ID 和密码在 openshift 上创建了一个项目。让我们称之为 firstApp 。我做了 rhc 设置和我的 ssh key 与我的项目相关联。 我的 frie
当我使用 Jackson 反序列化 json 字符串时,我通常不想创建所有 bean 类的属性,而且我只需要一些 json 字符串的字段,其他字段我不需要。所以我经常只在我需要的 java 类 bea
我想编写一个带有 keys/keys* 的规范,但能够内联值规范,但不支持 by design ,我明白了其背后的原因。然而,有时,本地图存在特定上下文时,您确实希望(或者只是通过遗留或第三方)键和值
my %fruit_colors = ("apple", "red", "banana", "yellow"); my @fruits = keys %fruit_colors; my @colors
我正在使用 vb.net 2008 和 DataGridView。我正在寻找允许我将 enter 键移动到右侧的下一列而不是在保持在同一列时向下移动一行的代码。 最佳答案 如果您正在确认编辑,只需移动
我刚刚开始学习编码,我遇到了这个我无法理解的问题。 “我们将添加的第二个函数称为搜索,它将以名字作为参数。它将尝试将收到的名字与我们 friend 联系人列表中的任何名字相匹配。如果它找到匹配项,就会
我已经在 Python 中运行了下面的代码,以从文本文件中生成单词列表及其计数。我该如何从“Frequency_list”变量中过滤掉计数为 1 的单词? 另外,如何将底部的打印语句循环导出到CSV
我正在尝试 XSLT 中的查找表示例,但无法使其正常工作
是否可以在 Javascript/Typescript 中编写一个将参数名称/键作为字符串返回的函数? function foo(arg) {...} let user = new User(); f
我正在尝试创建一个带有键/值的对象,但是当我看到该对象时,键没有正确填充.. 我希望键是 - 0,1,2,3 但它显示“索引”作为键。 > categories = ["09/07/2016 00:0
将 Android Studio 从 1.5 升级到 2.0 后,模拟器(现在版本为 25.1.1,我在其上配置了模拟硬件键盘)不再将 [Esc] 键识别为等同于 [Back] 按钮。 如何恢复这个有
我是一名优秀的程序员,十分优秀!