- r - 以节省内存的方式增长 data.frame
- ruby-on-rails - ruby/ruby on rails 内存泄漏检测
- android - 无法解析导入android.support.v7.app
- UNIX 域套接字与共享内存(映射文件)
我完全预料到我在某处有错误或误解了什么,但为什么以下代码似乎没有表现出均匀分布?
func TestMD5(t *testing.T) {
n := 50000
counts := map[uint32]int{} // # of hashes per 1/nth shard
for i := 0; i < n; i++ {
hash := md5.Sum(newUUID())
result := binary.BigEndian.Uint32(hash[:4])
counts[result/uint32(n)]++
}
dupeShards := 0
dupeEntries := 0
for _, count := range counts {
if count > 1 {
dupeShards++
dupeEntries += count - 1
}
}
t.Logf("%d inputs hashed to the same %d shards as other inputs.", dupeEntries, dupeShards)
if len(counts) < n*95/100 {
t.Fatalf("%d populated shards not within 5%% of expected %d uniform distribution!", len(counts), n)
}
}
https://play.golang.org/p/05mA0Dl9GBG
—
代码解释:
==> 我希望 50k MD5 总和均匀分布在 50k 分片上,但我一直看到只有 38k 分片填充,并且在 10k 分片中聚集:
main.go:29: 12075 inputs hashed to the same 9921 shards as other inputs.
main.go:32: 37925 populated shards not within 5% of expected 50000 uniform distribution!
我也可以用其他哈希值(例如 FNV)复制它,所以我猜我误解了什么。感谢您的帮助!
最佳答案
这是绝对正常的行为,不会显示 MD5 实现有任何偏差或错误。
您正在做的是(非常接近)取 50,000 个介于 0 和 49,999 之间的随机数。当您这样做时,几乎可以肯定许多数字会重复出现,因此有些数字不会出现。事实上,这 50,000 个数字完全不同且完全没有重复是不太可能的。
你可以用一个六面骰子来测试这个——如果你掷 6 次,你不太可能得到所有六个数字,更有可能看到大约 3、4 或 5 个,其中一个,重复两到三次。它也与所谓的birthday paradox有关。 .
这种现象的另一个例子是“帕尼尼贴纸问题”。帕尼尼贴纸相册是一本包含约 600 张纪念世界杯足球赛贴纸的书。每一个都有编号且不同,它们在数据包中随机呈现。您必须获得每个号码中的一个才能完成专辑。假设您购买了正确数量的贴纸来填满相册。如果你能完美地填满专辑,没有任何 double 或遗漏贴纸,那将是非常幸运的。事实上,平均而言,您必须购买大量贴纸才能至少获得一张(如果您不与其他收藏者交换副本的话)。
0-49,999 不同值出现的次数和显示“聚集”的次数可以用数学方法计算。我不确定你是如何测量结 block 的。但是,从一次试验到下一次试验,38K 填充值的值将非常稳定,即使您看到的实际值会发生变化。
事实上,填充值的预期数量是 (1 - 1/e)n,其中 n 是可能值的数量,e 是数学常数 2.718281828... n=50000 的答案是 31606。你当然不会总是得到这个值,但所有的结果都应该在几百左右(在这里吐痰)。你在你的程序中犯了一个小错误,所以我无法破译给你 ~37000 的相关计算。
关于go - 为什么Golang的MD5分布看起来不统一?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50084201/
我正在尝试运行这段代码,用随机数替换字符串中的一个字符: //Get the position between 0 and the length of the string-1 to insert
我有一个包含 3 个位置的数组,假设它的所有位置都是数字 5。 [5 5 5] 我怎样才能以保持 555 的方式将它传递给 var?就像这样。 n:= 555 最佳答案 与使用任何其他语言的方式相同:
我使用 go dep 工具版本 v0.4.1,现在当我运行 dep init 时它会按预期创建 2 个文件,当我打开 gopkg.lock 我发现例如以下内容 [[projects]] name
我正在制作学习联系申请。我有一个 NewContact()。 // Contact - defines the fields of an entire Contact type Contact str
我一直在尝试使用该模块: https://godoc.org/github.com/hirochachacha/go-smb2#RemoteFile.ReadAt 为了在 Windows 机器上对我的
我需要在 golang 中编译 golang 中的程序。有没有不使用 exec.Command("go","build") 的原生形式? 最佳答案 不幸的是,我认为使用 exec.Command 是利
编写输出有效 go 代码的 go 应用程序可能最好使用内置的“go”包及其一些子包(“go/ast”、“go/token”、“go/printer”、等)。 要创建字符串文字表达式,您需要创建一个 a
我正在尝试使用 Golang 和 gin 为我的 api 和前端编写代理。如果请求转到除“/api”之外的任何内容,我想代理到 svelte 服务器。如果出现“/api/something”,我想在
我偶然发现了这个博客:using go as a scripting language并尝试创建一个可用于运行 golang 脚本的自定义图像,即 FROM golang:1.15 RUN go ge
我刚开始接触golang,我需要从json字符串中获取数据。 {"data" : ["2016-06-21","2016-06-22","2016-06-25"], "sid" : "ab", "di
关闭。这个问题是opinion-based .它目前不接受答案。 想要改进这个问题? 更新问题,以便 editing this post 可以用事实和引用来回答它. 关闭 3 年前。 Improve
我是 goland 的新手,试图在我的第一个项目中使用它。我注意到在 goland 中它没有显示通过容器引入的相同 golang SDK。 这是我的 Dockerfile: FROM golang:1
我正在试用 golang-neo4j-bolt-driver 包 github.com/johnnadratowski/golang-neo4j-bolt-driver 我已经导入了包并正在使用创建新
如果我安装了Go发行版软件包,则会在/usr/lib/golang/pkg中看到很多文件,在/usr/lib/golang/src中看到非常相似的文件集。这两组之间有什么关系? pkg是从src中的源
我发现 golang 上下文对于在客户端-服务器请求范围内取消服务器的处理很有用。 我可以使用 http.Request.WithContext 方法发出带有上下文的 http 请求,但是如果客户端不
我正在尝试将一个 golang 数组(还有 slice、struct 等)放置到 HTML 中,这样当从 golang gin web 框架返回 HTML 时,我可以在 HTML 元素内容中使用数组元
目前正在使用这个 ffmpeg 命令编辑视频 ffmpeg -i "video1.ts" -c:v libx264 -crf 20 -c:a aac -strict -2 "video1-fix.ts
我需要从 play.golang.org 链接读取 golang 代码并保存到 .go 文件。我想知道 play.golang.org 是否有任何公共(public) API 支持。我用谷歌搜索但没有
我第一次使用 IntelliJ 的最新 (2014-01-03) Golang 插件。 通常,我的终端工作流程是 go build && ./executable -args=1 所以我试图创建一个启
这个问题只是在构建之间随机出现,现在甚至我们的生产 repo,几个月都没有改变,在构建时也会出现这个问题。我已经坚持了一段时间。它不会发生在我们的本地机器上,只有在使用 dockerfile 时才会发
我是一名优秀的程序员,十分优秀!