Java hashmap vs hashset 性能-6ren

Java hashmap vs hashset 性能

转载作者：搜寻专家更新时间：2023-10-31 20:00:14

28

4

我有一个包含 7.6M 行的文件。每行的格式为:A、B、C、D，其中 B、C、D 是用于计算 A 重要性级别的值，A 是每行唯一的字符串标识符。我的做法:

private void read(String filename) throws Throwable {
        BufferedReader br  = new BufferedReader(new FileReader(filename));

        Map<String, Double> mmap = new HashMap<>(10000000,0.8f);
        String line;
        long t0 = System.currentTimeMillis();
        while ((line = br.readLine()) != null) {
            split(line);
            mmap.put(splitted[0], 0.0);
        }
        long t1 = System.currentTimeMillis();
        br.close();
        System.out.println("Completed in " + (t1 - t0)/1000.0 + " seconds");
}

private void split(String line) {
    int idxComma, idxToken = 0, fromIndex = 0;
    while ((idxComma = line.indexOf(delimiter, fromIndex)) != -1) {
        splitted[idxToken++] = line.substring(fromIndex, idxComma);
        fromIndex = idxComma + 1;
    }
    splitted[idxToken] = line.substring(fromIndex);
}

为了“分析”目的而插入虚拟值 0.0 并拆分的是为该类定义的简单字符串数组。我最初使用 String 的 split() 方法，但发现上面的方法更快。

当我运行上面的代码时，解析文件需要 12 秒，这比我想象的要多。例如，如果我用字符串 Vector 替换 HashMap 并只从每一行中取出第一个条目(即我没有在其中放置关联值，因为这应该是摊销常量)，整个文件可以在不到3 秒。

这向我表明 (i) HashMap 中有很多冲突(我试图通过预分配大小并相应地设置加载因子来最小化调整大小的次数)或 (ii) hashCode() 函数不知何故很慢。我怀疑它 (ii)，因为如果我使用 HashSet，文件可以在 4 秒内读取。

我的问题是:HashMap 执行如此缓慢的原因可能是什么？对于这种大小的 map ，hashCode() 是否不够用，还是我忽略了一些根本性的东西？

最佳答案

HashMap 与 Vector:在 HashMap 中插入比在 Vector 中插入成本更高。虽然两者都是摊销常数时间操作，但 HashMap 在内部执行许多其他操作(如生成 hashCode、检查冲突、解决冲突等)，而 Vector 只是在末尾插入元素(增加结构的大小，如果需要的话)。

HashMap 与 HashSet:HashSet 在内部使用 HashMap。因此，如果您将它们用于相同目的，则应该不会有任何性能差异。理想情况下，这两者都有不同的目的，因此讨论哪个更好是没有用的。

既然您需要 B、C、D 作为值，而 A 作为键，您绝对应该坚持使用 HashMap。如果您真的只想比较性能，请将“null”而不是 0.0 作为所有键的值(因为这是 HashSet 在将键放入其支持的 HashMap 时使用的值)。

更新:HashSet 使用虚拟常量值(静态最终值)插入到 HashMap 中，而不是 null。对于那个很抱歉。你可以用任何常量替换你的 0.0，性能应该类似于 HashSet。

关于Java hashmap vs hashset 性能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42530042/

28

4

0

文章推荐： java - 引用的类类型和实际的类类型，哪个决定调用哪个方法？

文章推荐： java - OAuth token 请求 - 从 responseentity 获取 access_token

文章推荐： java - 哪个提供商负责 AES/CTR/NoPadding？

java - 'Set = new HashSet' 还是 'HashSet = new Hashset'？
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: List versus ArrayList variable type? 我正在初始化一个 HashSet就
java - 在 Java 中，HashSet = new HashSet(2) 和 HashSet = new HashSet(2) 之间有什么区别？
使用初始化有什么区别 HashSet s = new HashSet(2) 和 HashSet s = new HashSet(2) ？最佳答案唯一的区别是第一个会向您提供有关原始类型“HashS
java - java Set = new HashSet 和 HashSet = new HashSet 之间的区别
这个问题已经有答案了: What does it mean to "program to an interface"? (33 个回答) 已关闭 9 年前。这两个调用有什么区别: Set insta
java - 将新的 HashSet 添加到先前的 HashSet， "CHANGING"先前的 HashSet 并继续这样做，直到满足特定条件
我知道，如果您有两个 HashSet ，您可以创建第三个将这两个 HashSet 添加。但是，出于我的目的，我需要更改之前的 456 ，查找某些条件，然后如果不满足，则再次更改设置。我的目的是，我将给
HashSet 作为其他 HashSet 的键
我正在尝试使用 HashSet作为其他人的 key HashSet .我找到了 this question and answer指出要实现 Hash HashSet 的特征，但我无法让我的具体案例发挥
rust - 如何将一个 HashSet 的所有值插入另一个 HashSet？
我有两个 HashSet s，我想实现 a = a U b .如果可能的话，我想使用 HashSet::union而不是循环或其他调整。我尝试了以下方法: use std::collections:
java - HashSet 项等于，但 HashSet 不包含
我有一个HashSet包含一件元素。尝试添加到集合中的新项目与现有项目相同，.equals() 。确认newElement事实上是一样的，我有一些调试打印循环通过我的 HashSet并打印每个项目:
java - 访问 HashSet 的 HashSet 的元素
我创建了一个 HashSet 的 HashSet。我想访问子集中的整数值。我的 HashSet 的 HashSet 是包含 Set 的所有子集的集合，如下所示:- [[], [1], [2], [1,
java - 替换 HashSet 内容而不创建新的 HashSet 对象
我必须操作存在于大 HashSet 对象下的字符串我想知道是否有可能操纵现有的不创建新 HashSet 对象的 HashSet 对象以下是我当前的逻辑，其中，我想避免创建第二个 HashSet(
java - 清除 HashSet 与创建新 HashSet 的内存效率
好奇心和效率是这个问题的原因。在某些循环运行后，我正在创建许多新的哈希集: HashSet 当前在类的顶部这样声明: private Set failedTests; 然后在代码的后面，只要我重新运行
string - 如何使用另一个 HashSet 扩展 HashSet？
这个问题在这里已经有了答案: How can I insert all values of one HashSet into another HashSet? (2 个回答) 9 个月前关闭。当我尝
c# - 从 hashset of actions 中删除 hashset of actions
我有两个 Action 哈希集，如果它们出现在第二个哈希集中，我该如何删除所有相同的操作？最佳答案您正在寻找 ExceptWith 方法。关于c# - 从 hashset of actions
java - 在 HashSet 的 ArrayList 中重新创建 HashSet
我有代码 List> list = new ArrayList>(50); pos = 17; // just some index less than 50 list.add(pos, new Ha
java - 调用 hashSet.clear() 后创建一个新的 HashSet 还是重用更好
我想在 HashSet 中处理一些新数据，而不需要任何旧数据或旧 HashSet 对象。旧的 HashSet 对象不在其他地方引用。简单地做hashset = new HashSet()更好吗？让
rust - 期望 HashSet<&'a str> 但找到 HashSet<&&str>
我正在尝试学习 Rust 的诀窍，我正在玩这个小函数: fn anagrams_for(word: &str, possible_anagrams: &[&'a str]) -> HashSet {
java - HashSet - 访问/查找 HashSet 中的对象是否为 O(1)？
这个问题已经有答案了: HashSet look-up complexity? (4 个回答) 已关闭 6 年前。访问数组中特定对象/数据的平均复杂度是 O(n) ，这里 n 是数组长度。Java
java - TreeSet 是否可能等于 HashSet 但 HashSet 不等于 TreeSet
我今天接受了采访，接受我采访的人对他的陈述感到困惑，询问是否有可能 TreeSet等于 HashSet但不是 HashSet等于 TreeSet .我说“不”，但据他说，答案是"is"。怎么可能？
c# - 如何编写通用扩展方法以使用 HashSet.AddRange() 将 List 转换为 HashSet？
HashSet 没有AddRange 方法，所以我想为它写一个扩展方法。这是我的: public static void AddRange(this ICollection collection, I
c# - 我可以将 HashSet 作为 HashSet 传递吗？
我编写了一个接受 HashSet 的函数范围。我想通过 HashSet其中 SomeEnumeration具有基础类型 byte .有没有简单的方法可以做到这一点？ public enum SomeE
c# - 为什么 HashSet 比 HashSet 慢这么多？
我想存储一些不允许重复的像素位置，所以首先想到的是 HashSet或类似的类(class)。然而，与 HashSet 之类的东西相比，这似乎非常慢. 例如，这段代码: HashSet points =

首页

博学

6Ren·AI

商城

Java hashmap vs hashset 性能