- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我有一个自定义的封闭哈希集/开放寻址(即没有链表)类。它非常符合我的需求 - 它不是通用的(仅适用于正长数),需要预定义要插入的记录数量,并且不支持删除 - 但它意味着尽可能少占用空间.
由于它的功能很少,所以它是一个非常小且简单的类。但是由于某种原因,当我插入许多条目时,冲突的数量变得太多太多太快了。
一些代码(Java):
public class MyHashSet
{
private long[] _entries;
public MyHashSet(int numOfEntries)
{
int neededSize = (int)(numOfEntries / 0.65D);
_entries = new long[neededSize];
}
public void add(long num)
{
int cell = ((Long) (num % _entries.length)).intValue();
while (_entries[cell] != 0)
{
if (++cell >= _entries.length)
cell = 0;
}
_entries[cell] = num;
}
...
我有一个 main,它以 1000 万作为参数实例化一个 MyHashSet 对象,然后使用不同的随机生成(但为正)Long 数调用 add() 1000 万次。在普通的 Java HashSet 上,这个插入整体需要大约 1 秒,而 MyHashSet 则需要大约 13 秒才能完成。我为碰撞添加了一个计数器,实际上,碰撞次数为 3-60 亿次 - 远远超过预期(我猜预计会有 30-4000 万次)。
我做错了什么吗?散列本身有问题吗?为什么会有这么多碰撞,我该怎么办?
谢谢!
P.S.:代码中的数字 0.65 表示该表只会填充 65%,我知道这应该在封闭的哈希集中运行良好。对于这个问题,即使我将它设置为 20%,插入仍然需要 > 10 秒..
-- 编辑--
承认这一点非常尴尬,但我的测试代码在循环的每次迭代中重新创建了 Random 对象(以 System.currentTimeMillis() 作为种子),而不是在整个运行过程中使用相同的对象..
修复后,大约需要 2-3 秒才能完成插入。相比之下,这似乎仍然太多了——为什么默认的 java HashSet 只需要一秒钟的时间就可以插入,而它比 MyHashSet 更“复杂”?我现在只有大约 900 万次碰撞。我还尝试关闭日志记录代码以查看它是否有帮助,但它仍然不会有所作为。如果有任何想法,我将不胜感激,对于之前的困惑,我再次深表歉意。
最佳答案
我首先注意到的是线上的无偿拳击
int cell = ((Long) (num % _entries.length)).intValue();
比
慢得多int cell = (int) (num % _entries.length);
(请注意,num % _entries.length
将始终适合 int
,因为 _entries.length
本身就是一个 int
。)
诚然,Java 的 HashSet
无论如何都会遭受类似的开销,但这至少是一个明显需要解决的问题。
此外,确保表格大小为质数可能对您有利。最简单的方法是 BigInteger.valueOf((int)(numOfEntries/0.65)).nextProbablePrime().intValue()
,因为这是一次性成本,所以不会影响整体性能太差了。
或者,Java 的 HashSet
使用 2 的幂哈希表大小,因此它可以使用掩码(value & (_entries.length - 1)
,基本上)而不是 %
,后者通常更昂贵。
关于java - 为什么我的自定义封闭哈希集中会发生如此多的冲突?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9873636/
我的工作是将每条记录写入 Hadoop 映射中的 DynamoDB。 我无法使用具有 httpclient-4.2.5.jar 和 httpcore-4.2.5.jar 的 Hadoop 2.6 运行
我在 JavaScript 中嵌套了循环开关,例如: for (var i = 0; i < checkBoxIds.length; i++) { if ($('#' + checkB
我有一个文件夹被重命名的分支。现在我正在尝试合并从主干到这个分支的更改,但是在主干中修改的文件仍然在原始文件夹名称下,因此 svn 引发了树冲突。我该如何解决这个问题? 该文件夹已使用 svn ren
我在使用 jquery 暴露插件和 Masked 输入插件时遇到了问题。问题是它们都占用 $.mask 函数,从而导致冲突。但我非常需要这两个插件一起工作。我会将其中一个中的 $.mask 重命名为.
我正在尝试为我所有的 INPUT 元素做一个简单的 :focus 效果,就像这样: INPUT:focus { border-color: orange; } 这很好用,直到我将这段 CSS 添加到样
我是 javascript 的新手。 在 wordpress 上工作,我在自定义 js 中为我的主题输入了以下函数: document.getElementsByName("empty_cart")[
为什么有些 javascript 会与其他的发生冲突?我的意思是我一直在为图片库使用 javascript 代码,然后尝试在 jquery 中获取文本水印。为什么在使用 jquery 之后,画廊完全消
是否可以根据已知的输入值创建 MD5 碰撞? 所以例如我有输入字符串 abc与 MD5 900150983cd24fb0d6963f7d28e17f72 . 现在我想将字节添加到字符串 def获得相同
我在我的项目中使用原型(prototype): NodeParser.prototype.getChildren = function(parentContainer) { return fl
根据我对 merge 冲突的理解,当两个人更改了同一文件和/或修改了该文件中的同一行时,就会发生 merge 冲突。所以当我做一个 git pull origin master 我期望 merge 冲
iPad 上 Mobile Safari 中的 HTML5 模板。带 iScroll 的 Div 工作正常。 if/else 语句中还包含一个 jQuery 函数。该函数测试用户是否在 iScroll
我一直在尝试使 2 个脚本(1 个 mootol 和 1 个 jquery)在同一页面上工作,但没有成功。我一直在研究许多论坛等,但我仍然无法使这两个脚本同时工作。 这就是它在我的标题中的样子: /w
我想克隆带标题的问号。一切正常,但是当我将鼠标悬停在新问号上时,第一个问号上会出现工具提示。有什么想法吗? 我正在使用 jQuery 和醉酒的工具提示。 Demo here click here
好吧,我已经在一个 friend 的网站上工作了一段时间了。我的编码技能......值得怀疑,而且我遇到了很多问题。 目前我网站上的 jQuery 停止工作了,我找不到原因,并且我已尽一切努力让它工作
我想使用一个文件来保存所有#define 和常量:示例 #ifndef CONSTANTS_H_ #define CONSTANTS_H_ #include //OVERALL DEFS
我在我的表单中的所有 HTML 下都有一些验证码,这似乎阻止了我的复选框验证码的工作,一旦我在我的 HTML 下的代码周围添加/* */(使其不活动),我就得出了这个结论) 复选框验证代码开始正常工作
我是新手。我的页面上有两个 javascript/jquery。如果我使用第一个脚本,第二个脚本将不起作用。如果我删除第一个脚本,第二个脚本就可以正常工作。我不知道如何解决这个问题。我知道有一个“无冲
我是 Bison 新手,在处理 Shift/Reduce 冲突时遇到了麻烦... 我正在为C语言编写语法规则:ID是标识变量的标记,我编写此规则是为了确保即使将标识符写在括号中,也可以考虑它。 id
我目前正在使用 LibGdx 开发我的第一个 Android 游戏项目。这是一款 2D 迷宫游戏,您可以使用触摸输入从其中一个入口到其中一个导出“画出”一条线。世界本身是一个 TiledMap,目前仅
我正在尝试通过 javascript 完成表单验证,并在 #form# 标记中放置一个要执行的 .py 文件操作。但问题是,当我提交数据后,它不会重定向到 .py 操作。所以我摆脱了 preventd
我是一名优秀的程序员,十分优秀!