- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我有一个包含 7.6M 行的文件。每行的格式为:A、B、C、D,其中 B、C、D 是用于计算 A 重要性级别的值,A 是每行唯一的字符串标识符。我的做法:
private void read(String filename) throws Throwable {
BufferedReader br = new BufferedReader(new FileReader(filename));
Map<String, Double> mmap = new HashMap<>(10000000,0.8f);
String line;
long t0 = System.currentTimeMillis();
while ((line = br.readLine()) != null) {
split(line);
mmap.put(splitted[0], 0.0);
}
long t1 = System.currentTimeMillis();
br.close();
System.out.println("Completed in " + (t1 - t0)/1000.0 + " seconds");
}
private void split(String line) {
int idxComma, idxToken = 0, fromIndex = 0;
while ((idxComma = line.indexOf(delimiter, fromIndex)) != -1) {
splitted[idxToken++] = line.substring(fromIndex, idxComma);
fromIndex = idxComma + 1;
}
splitted[idxToken] = line.substring(fromIndex);
}
为了“分析”目的而插入虚拟值 0.0 并拆分的是为该类定义的简单字符串数组。我最初使用 String 的 split() 方法,但发现上面的方法更快。
当我运行上面的代码时,解析文件需要 12 秒,这比我想象的要多。例如,如果我用字符串 Vector 替换 HashMap 并只从每一行中取出第一个条目(即我没有在其中放置关联值,因为这应该是摊销常量),整个文件可以在不到3 秒。
这向我表明 (i) HashMap 中有很多冲突(我试图通过预分配大小并相应地设置加载因子来最小化调整大小的次数)或 (ii) hashCode() 函数不知何故很慢。我怀疑它 (ii),因为如果我使用 HashSet,文件可以在 4 秒内读取。
我的问题是:HashMap 执行如此缓慢的原因可能是什么?对于这种大小的 map ,hashCode() 是否不够用,还是我忽略了一些根本性的东西?
最佳答案
HashMap 与 Vector:在 HashMap 中插入比在 Vector 中插入成本更高。虽然两者都是摊销常数时间操作,但 HashMap 在内部执行许多其他操作(如生成 hashCode、检查冲突、解决冲突等),而 Vector 只是在末尾插入元素(增加结构的大小,如果需要的话)。
HashMap 与 HashSet:HashSet 在内部使用 HashMap。因此,如果您将它们用于相同目的,则应该不会有任何性能差异。理想情况下,这两者都有不同的目的,因此讨论哪个更好是没有用的。
既然您需要 B、C、D 作为值,而 A 作为键,您绝对应该坚持使用 HashMap。如果您真的只想比较性能,请将“null”而不是 0.0 作为所有键的值(因为这是 HashSet 在将键放入其支持的 HashMap 时使用的值)。
更新:HashSet 使用虚拟常量值(静态最终值)插入到 HashMap 中,而不是 null。对于那个很抱歉。你可以用任何常量替换你的 0.0,性能应该类似于 HashSet。
关于Java hashmap vs hashset 性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42530042/
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: List versus ArrayList variable type? 我正在初始化一个 HashSet就
使用初始化有什么区别 HashSet s = new HashSet(2) 和 HashSet s = new HashSet(2) ? 最佳答案 唯一的区别是第一个会向您提供有关原始类型“HashS
这个问题已经有答案了: What does it mean to "program to an interface"? (33 个回答) 已关闭 9 年前。 这两个调用有什么区别: Set insta
我知道,如果您有两个 HashSet ,您可以创建第三个将这两个 HashSet 添加。但是,出于我的目的,我需要更改之前的 456 ,查找某些条件,然后如果不满足,则再次更改设置。我的目的是,我将给
我正在尝试使用 HashSet作为其他人的 key HashSet .我找到了 this question and answer指出要实现 Hash HashSet 的特征,但我无法让我的具体案例发挥
我有两个 HashSet s,我想实现 a = a U b .如果可能的话,我想使用 HashSet::union而不是循环或其他调整。 我尝试了以下方法: use std::collections:
我有一个HashSet包含一件元素。尝试添加到集合中的新项目与现有项目相同,.equals() 。确认newElement事实上是一样的,我有一些调试打印循环通过我的 HashSet并打印每个项目:
我创建了一个 HashSet 的 HashSet。我想访问子集中的整数值。我的 HashSet 的 HashSet 是包含 Set 的所有子集的集合,如下所示:- [[], [1], [2], [1,
我必须操作存在于大 HashSet 对象下的字符串 我想知道是否有可能操纵现有的 不创建新 HashSet 对象的 HashSet 对象 以下是我当前的逻辑,其中,我想避免创建第二个 HashSet(
好奇心和效率是这个问题的原因。在某些循环运行后,我正在创建许多新的哈希集: HashSet 当前在类的顶部这样声明: private Set failedTests; 然后在代码的后面,只要我重新运行
这个问题在这里已经有了答案: How can I insert all values of one HashSet into another HashSet? (2 个回答) 9 个月前关闭。 当我尝
我有两个 Action 哈希集,如果它们出现在第二个哈希集中,我该如何删除所有相同的操作? 最佳答案 您正在寻找 ExceptWith 方法。 关于c# - 从 hashset of actions
我有代码 List> list = new ArrayList>(50); pos = 17; // just some index less than 50 list.add(pos, new Ha
我想在 HashSet 中处理一些新数据,而不需要任何旧数据或旧 HashSet 对象。旧的 HashSet 对象不在其他地方引用。 简单地做hashset = new HashSet()更好吗?让
我正在尝试学习 Rust 的诀窍,我正在玩这个小函数: fn anagrams_for(word: &str, possible_anagrams: &[&'a str]) -> HashSet {
这个问题已经有答案了: HashSet look-up complexity? (4 个回答) 已关闭 6 年前。 访问数组中特定对象/数据的平均复杂度是 O(n) ,这里 n 是数组长度。Java
我今天接受了采访,接受我采访的人对他的陈述感到困惑,询问是否有可能 TreeSet等于 HashSet但不是 HashSet等于 TreeSet .我说“不”,但据他说,答案是"is"。 怎么可能?
HashSet 没有AddRange 方法,所以我想为它写一个扩展方法。这是我的: public static void AddRange(this ICollection collection, I
我编写了一个接受 HashSet 的函数范围。我想通过 HashSet其中 SomeEnumeration具有基础类型 byte .有没有简单的方法可以做到这一点? public enum SomeE
我想存储一些不允许重复的像素位置,所以首先想到的是 HashSet或类似的类(class)。然而,与 HashSet 之类的东西相比,这似乎非常慢. 例如,这段代码: HashSet points =
我是一名优秀的程序员,十分优秀!