- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我需要一个生成器来生成许多(最多一万亿,10^12)个唯一的随机 64 位数字。生成器需要按排序顺序(Long.MIN_VALUE 到 Long.MAX_VALUE)返回数字。问题是对 $10^{12}$ 数字进行排序很慢。用例正在复制为 BBHash 运行的测试(在 paper 中,4.5 索引万亿键)。
直接的解决方案是在内存中创建一个集合,使用一个巨大的位集合左右以确保不返回重复项。但这会使用太多内存或 I/O。我最多想使用几 MB 的内部状态。
生成器应该在内部使用 java.util.Random。它应该尽可能“公平”(具有与以其他方式生成的统计分布相同的统计分布)。我还想要一个适用于 128 位数字(2 个长整数)的版本。
到目前为止,我所拥有的是在内存中创建集合的代码(Java 代码):
public static void main(String... args) {
for(long x : randomSet(10, 0)) {
System.out.println(x);
}
}
static Iterable<Long> randomSet(int size, int seed) {
Random r = new Random(seed);
TreeSet<Long> set = new TreeSet<Long>();
while (set.size() < size) {
set.add(r.nextLong());
}
return set;
}
-8292973307042192125
-7423979211207825555
-6688467811848818630
-4962768465676381896
-2228689144322150137
-1083761183081836303
-279624296851435688
4437113781045784766
6146794652083548235
7105486291024734541
最简单(错误)的解决方案不是随机的,而是平均分配结果。我认为“添加随机间隙”的解决方案不会奏效,因为它很慢,而且这些差距的总和在 10^12 之后,不会落在它应该的地方(好吧,也许:记住剩下多少数字,然后重新计算分布......)。我认为以下应该可行,但是很复杂,并且不确定要使用什么公式:对于每个位级别,递归地计算可能会出现多少个 0/1(以某种方式使用二项式分布或近似值,正态/高斯分布)。在某个点停止(比如,100 万个条目或更少的 block ),使用上面的代码,速度。但也许有一个优雅的解决方案。也许这与 Metropolis–Hastings 算法有关,不确定。我读了“顺序随机抽样的有效算法”,但我认为它只适用于小 n,我发现很难从中得到一个简单的算法。
Java 代码最好,但 C 也不错(无论如何,在某些时候我可能不得不将其转换为 C/C++)。我不想使用太多库,以简化移植。
最佳答案
对于要求
- generate a sequence of random numbers r_i from a whole number interval I = [-(R+1), R], R > 0 with a statistical distribution like java.util.Random
- the sequence r_i must be strictly increasing (r_i > r_j for i > j)
我们可以想出一个简单的算法
A1:
- draw a random number r_i from I via a library call
- discard it, if it is less or equal the last draw, try another pick
可能的提示是这个算法可能不会给出正确数量的生成的 r_i,有一个模糊的要求大约 N=10^12 个预期的总数
- "need a generator for many (up to one trillion, 10^12) unique random 64-bit numbers"
解决方案是
A2:
- to generate N numbers and then
- sort them
但是还有一个要求,就是没有足够的可用内存。
- "I'd like to use at most a few MB of internal state."
我的推测是不可能一次满足所有这些要求。
作为妥协我建议
A3:
R=2^63 = 9 10^18
N=1 Trillion = 10^12
- divide the range I=[-R,R-1] into N intervals of length (2R+1)/N each
- visit each of those intervals (visiting one interval after another)
- draw a random number from that interval
这将按递增顺序给出 N 个随机数。
更新:
浏览 BBHash paper 后和 sources几次这是我的理解:
给定一些整数集 I 和一个 N=|S| 的子集 S元素,BBHash 过程将计算一个函数 f,它将 S 映射到 {1,..,N} 的某个排列(什么排列似乎由 BBHash 过程隐式决定)并将所有其他元素从 I 映射到一个特殊值 Imax来 self 。
可能的测试:
给定 S 和 f,人们可能会检查是否正确计算了 I 中某个任意元素在 S 中的成员资格。
也可以检查 f(S) = {1,..,N}。
我的猜测是所请求的算法旨在在内存预算紧张的情况下动态计算 N=10^12 的样本集 S,需要随机数序列的唯一性而不是单调。
引用https://stackoverflow.com/a/35050835/2579220
Probabilistic data structures can't give you a definite answer, instead they provide you with a reasonable approximation of the answer and a way to approximate this estimation. They are extremely useful for big data and streaming application because they allow to dramatically decrease the amount of memory needed (in comparison to data structures that give you exact answers).
In majority of the cases these data structures use hash functions to randomize the items. Because they ignore collisions they keep the size constant, but this is also a reason why they can't give you exact values.
在 BBHash 的情况下,使用了一系列不同的哈希函数 h_i。应用不同的 h_i 直到没有碰撞发生。这仅在输入是唯一的情况下才有效。仅当实现为特定 S 存储了足够多的不同 h_i 时,它才会起作用。
关于java - 按排序顺序返回唯一条目的随机数生成器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44963859/
我正在创建一个有效的突变,但我不确定它是否按照我认为的方式工作。但是,我想知道执行顺序是什么? 异步 从上到下同步 同步随机顺序 其他 我想确保在执行插入/更新插入之前从表中删除某些项目。使用以下突变
如何更改规则中的前提顺序? 例如,在伊莎贝尔的自然演绎规则中: mp: ?P ⟶ ?Q ⟹ ?P ⟹ ?Q 我们可以将顺序更改为: ?P ⟹ ?P ⟶ ?Q ⟹ ?Q 我可以用 rev_mp或者定义一
关闭。这个问题需要details or clarity .它目前不接受答案。 想改善这个问题吗?通过 editing this post 添加详细信息并澄清问题. 8年前关闭。 Improve thi
我正在使用 Hibernate 3.2,并使用标准来构建查询。我想为多对一关联添加和“排序”,但我不知道如何做到这一点。 Hibernate 查询最终看起来像这样,我猜: select t1.a, t
我正在开发一个项目,但无法让我的 javascript 按顺序工作。我知道 javascript 可以并行执行任务,因此当您向不响应的服务器发出请求时,它不会被卡住。这有它的优点和缺点。就我而言,这是
在下面的代码中,我认为f1 > f2 > f3是调用顺序,但是仅f1被调用。如何获得依次调用的3个函数? 我已经将以下内容添加到main函数中,它可以按预期工作,但是我想知道是否还有其他确定的方法可以
我有一个如下所示的对象数组: [{ "id": 1, "Size": 90, "Maturity": 24, }, { "id": 2, "S
这是征求意见和要求的请求。我是Docker的新手。 我想要一个用于Python项目的生产和开发容器(可能也进行单元测试)。我的搜索指向多阶段Dockerfile(以及运行它们的多个docker-com
我想知道解决以下问题的有效方法是什么: 假设我在组 1 中有三个字符,在组 2 中有两个字符: group_1 = c("X", "Y", "Z") group_2 = c("A", "B") 显然,
在 Cordova 网站上,您可以看到一长串按字母顺序排列的钩子(Hook)列表,但它们触发和执行的正确顺序是什么? 我正在尝试在构建/编译之前将 cordova.js 脚本添加到 index.htm
我想知道解决以下问题的有效方法是什么: 假设我在组 1 中有三个字符,在组 2 中有两个字符: group_1 = c("X", "Y", "Z") group_2 = c("A", "B") 显然,
这个问题已经有答案了: 奥 git _a (2 个回答) 已关闭 9 年前。 这是我的一个练习的代码, public class RockTest { public static void main(
我使用 HashMap 来存储一些数据,但每当新数据保存到 HashMap 或旧数据移出 HashMap 时,我都需要将其保持升序。但是hashmap本身不支持顺序,我可以使用什么数据结构来支持顺序?
我想创建一个序列,当星期几与函数参数中的日期相同时,它会返回所有年份的结果(例如:自开始日期起,2 月 12 日为星期日的所有年份)。 let myDate (dw:System.DayOfWeek)
我有一个包含许多元素的 Xelement。 我有以下代码来对它们进行排序: var calculation = from y in x.Elements("row")
假设我有: 在 javacript 文件中,我为类按钮和 ID 名称定义了点击操作,例如: $("#name").click(function(event){ alert("hi"); }) $
我有一个包含 2 个 subview 的 View - collectionView 和自定义 View 。我想设置一个操作在布置 2 个 View 后运行,但layoutSubViews 运行了两次
关闭。这个问题需要更多 focused .它目前不接受答案。 想改进这个问题?更新问题,使其仅关注一个问题 editing this post . 2年前关闭。 Improve this questi
我想知道 C++ 中是否有内置方法来比较两个双向迭代器的顺序。例如,我有一个 Sum 函数来计算同一列表中 2 个迭代器之间的总和: double Sum(std::list::const_itera
在 MySQL 中,这两个查询之间有区别吗? SELECT * FROM .... ORDER BY Created,Id DESC 和 SELECT * FROM .... ORDER BY Cre
我是一名优秀的程序员,十分优秀!