java - 我如何评估哈希表的实现？ (引用HashMap)-6ren

java - 我如何评估哈希表的实现？ (引用HashMap)

转载作者：搜寻专家更新时间：2023-10-31 20:27:10

25

4

问题:

我需要比较 2 个哈希表实现(基本上是 HashMap 与另一个实现)并得出合理的结论。
我对 100% 的准确率不感兴趣，只是在我的估计中朝着正确的方向前进。
我不仅对每个操作的差异感兴趣，而且主要对哈希表作为“整体”的差异感兴趣。
我对速度没有严格的要求，所以如果其他实现合理慢我可以接受，但我确实期望/要求内存使用更好(因为其中一个哈希表由原始表支持)。

到目前为止我做了什么:

最初，我创建了自己的自定义“基准测试”，其中包含循环和多次提示 gc 的调用以感受差异，但我在网上阅读到使用标准工具更可靠/合适。
我的方法示例(MapInterface 只是一个包装器，因此我可以在实现之间切换。):

int[] keys = new int[10000000];
String[] values = new String[10000000];  
for(int i = 0; i < keys.length; ++i) {  
   keys[i] = i;  
   values[i] = "" + i;
}

if(operation.equals("put", keys, values)) {  
   runPutOperation(map);  
}  

public static long[] runOperation(MapInterface map, Integer[] keys, String[] values) {  
    long min = Long.MAX_VALUE;  
    long max = Long.MIN_VALUE;  
    long run = 0;  
    for(int i = 0; i < 10; ++i) {  
       long start = System.currentTimeMillis();  
       for(int i = 0; i < keys.length; ++i) {          
            map.put(keys[i], values[i]);  
        }
        long total = System.currentTimeMillis() - start;  
        System.out.println(total/1000d + " seconds");    
        if(total < min) {
            min = time;
        }
        if(total > max) {
            max = time;
         }
         run += time;  
         map = null;  
         map = createNewHashMap();
         hintsToGC();    
   }  
  return new long[] {min, max, run};
 }     


public void hintsToGC() {  
    for(int i = 0; i < 20; ++i) {
            System.out.print(". ");
            System.gc();            
            try {
                Thread.sleep(100);
            } catch (InterruptedException e) {              
                e.printStackTrace();
          }           
       } 
}


private HashMapInterface<String> createNewHashMap() {  
    if(jdk) {  
        return new JDKHashMapWrapper<String>();  
    }  
    else {
        return new AlternativeHashMapWrapper<String>();   
    }  
 }  



public class JDKHashMapWrapper implements HashMapInterface<String>  {
    HashMap<Integer, String> hashMap;         
    JDKHashMapWrapper() {   
       hashMap = new HashMap<Integer, String>();  
    }  
    public String put(Integer key, String value)  {
       return hashMap.put(key, value);  
    }  
 //etc  
}

(我想测试put、get、contains和内存利用率)
我能否确定使用我的方法可以获得合理的测量值？
如果不是，什么是最合适的工具，如何使用？

更新:
- 我还使用 SecureRandom 测试随机数(也是 ~10M 随机数)。
- 当哈希表调整大小时，我打印哈希表的逻辑大小/实际表的大小以获得负载因子

更新:
对于我的具体情况，我也对整数感兴趣，我的方法有哪些陷阱？

@dimo414 评论后更新:

Well at a minimum the hashtable as a "whole" isn't meaningful

我的意思是哈希表在运行时和内存消耗方面的各种负载下的行为。

Every data structure is a tradeoff of different methods

我同意。我的权衡是内存改进的可接受访问惩罚

You need to identify what features you're interested in verifying

1)放(键，值);
2) 获取(键, 值);
3) 包含键(键);
4) 当哈希表中有很多条目时，以上所有

最佳答案

使用哈希表的一些关键考虑因素是“桶”分配的大小、冲突解决策略和数据的形状。本质上，哈希表获取应用程序提供的键，然后将其哈希为小于或等于分配的桶数的值。当两个键值散列到同一个桶时，实现必须解决冲突并返回正确的值。例如，每个桶都可以有一个排序的链表，然后搜索该链表。

如果您的数据恰好有很多冲突，那么您的性能将会受到影响，因为哈希表实现将花费太多时间来解决冲突。另一方面，如果你有非常多的桶，你会以牺牲内存为代价来解决碰撞问题。此外，如果条目数超过一定数量，Java 的内置 HashMap 实现将“重新散列”——我想这是一个值得避免的昂贵操作。

因为你的关键数据是1到10M的正整数，所以你的测试数据看起来不错。我还将确保针对给定测试将不同的哈希表实现初始化为相同的存储桶大小，否则这不是一个公平的比较。最后，我会在相当大的范围内改变存储桶大小，然后重新运行测试以查看实现如何改变它们的行为。

关于java - 我如何评估哈希表的实现？ (引用HashMap)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31596577/

25

4

0

文章推荐： java - 从 Java 7 到 Java 8 的 Jackson Object Mapper 版本化问题

文章推荐： java - java 中的泛型 set 应该添加函数接受哪些参数？

文章推荐： java - 给定一串单词，在字典中查找所有单词

regex - Grep 所有不以#(哈希)或贪心空格和#(哈希)开头的行
我正在尝试 grep conf 文件中所有不以开头的有效行哈希(或) 任意数量的空格(0 个或多个)和一个散列下面的正则表达式似乎不起作用。 grep ^[^[[:blank:]]*#] /op
带斜线的 Laravel 哈希
我正在使用哈希通过 URL 发送 protected 电子邮件以激活帐户 Hash::make($data["email"]); 但是哈希结果是 %242y%2410%24xaiB/eO6knk8sL
来自文本文件的 Perl 哈希
我是 Perl 的新手，正在尝试从文本文件创建散列。我有一个代码外部的文本文件，旨在供其他人编辑。前提是他们应该熟悉 Perl 并且知道在哪里编辑。文本文件本质上包含几个散列的散列，具有正确的语法、缩
perl 哈希 - 比较键和值
我一直在阅读 perl 文档，但我不太了解哈希。我正在尝试查找哈希键是否存在，如果存在，则比较其值。让我感到困惑的是，我的搜索结果表明您可以通过 if (exists $files{$key}) 找到
当键和值都是数组引用时的 Perl 哈希
我遇到了数字对映射到其他数字对的问题。例如，(1,2)->(12,97)。有些对可能映射到多个其他对，所以我真正需要的是将一对映射到列表列表的能力，例如 (1,2)->((12,97),(4,1))。
Mustache:从模板中检索标签列表/哈希？
我见过的所有 Mustache 文档和示例都展示了如何使用散列来填充模板。我有兴趣去另一个方向。 EG，如果我有这个: Hello {{name}} mustache 能否生成这个(伪代码): tag
hash - ColdFusion 哈希
我正在尝试使用此公式创建密码摘要以获取以下变量，但我的代码不匹配。不确定我做错了什么，但当我需要帮助时我会承认。希望有人在那里可以提供帮助。文档中的公式:Base64(SHA1(NONCE + TI
arrays - 遍历数据数组/哈希
我希望遍历我传递给定路径的这些数据结构(基本上是目录结构)。目标是列出根/基本路径，然后列出所有子 path s 如果它们存在并且对于每个子 path存在，列出 file从那个子路径。我知道这可能
子函数的 Perl 哈希
我希望有一个包含对子函数的引用的散列，我可以在其中根据用户定义的变量调用这些函数，我将尝试给出我正在尝试做的事情的简化示例。 my %colors = ( vim => setup_vim()
vim - 为什么写入文件会更改内容(哈希)？
我注意到，在使用 vim 将它们复制粘贴到文件中后尝试生成一些散列时，散列不是它应该的样子。打开和写出文件时相同。与 nano 的行为相同，所以一定有我遗漏的地方。 $ echo -n "foo"
perl - 为什么我们不能在列表上下文中初始化状态数组/哈希？
数组和散列作为状态变量存在限制。从 Perl 5.10 开始，我们无法在列表上下文中初始化它们: 所以 state @array = qw(a b c); #Error! 为什么会这样？为什么这是不允
Varnish vcl_backend_response检测vcl_recv返回(哈希)
在端口 80 上使用 varnish 5.1 的多网站设置中，我不想缓存所有域。这在 vcl_recv 中很容易完成。 if ( req.http.Host == "cache.this.domai
Django 管道缓存破坏不更新缓存文件/哈希
基本上，缓存破坏文件上的哈希不会更新。 class S3PipelineStorage(PipelineMixin, CachedFilesMixin, S3BotoStorage): pa
eclipse - 调试Dart应用程序时变量的唯一ID(哈希？)
eclipse dart插件在“变量” View 中显示如下内容: 在“值”列中可见的“id”是什么意思？ “id”是唯一的吗？在调试期间，如何确定两个实例是否相同？我是否需要在所有类中重写toStr
arrays - 将相同类型的命令行参数读入Powershell中的数组/哈希
如何将Powershell中的命令行参数读入数组？就像是 myprogram -file file1 -file file2 -file file3 然后我有一个数组 [file1,file2,fil
用于安全支付网关的 coldfusion 哈希
我正尝试在 coldfusion 中为我们的安全支付网关创建哈希密码以接受交易。很遗憾，支付网关拒绝接受我生成的哈希值。表单发送交易的所有元素，并发送基于五个不同字段生成的哈希值。在 PHP 中
Ruby - 哈希 - 组合
例如，我有一个包含 5 个元素的哈希: my_hash = {a: 'qwe', b: 'zcx', c: 'dss', d: 'ccc', e: 'www' } 我的目标是每次循环哈希时都返回，但没
哈希问题的 Perl 哈希
我在这里看到了令人作呕的类似问题，但没有一个能具体回答我自己的问题。我正在尝试以编程方式创建哈希的哈希。我的问题代码如下: my %this_hash = (); if ($user_hash{$u
用于安全支付网关的 coldfusion 哈希
我正尝试在 coldfusion 中为我们的安全支付网关创建哈希密码以接受交易。很遗憾，支付网关拒绝接受我生成的哈希值。表单发送交易的所有元素，并发送基于五个不同字段生成的哈希值。在 PHP 中
Java 哈希(简单)
这个问题已经有答案了: Java - how to convert letters in a string to a number? (9 个回答) 已关闭 7 年前。我需要一种简短的方法将字符串转

首页

博学

6Ren·AI

商城

java - 我如何评估哈希表的实现？ (引用HashMap)