java - 生成多对一映射的算法/哈希函数-6ren

java - 生成多对一映射的算法/哈希函数

转载作者：塔克拉玛干更新时间：2023-11-03 05:16:24

24

4

我正在寻找可用于从整数流中生成批处理的哈希函数。具体来说，我想将整数 xi 从一个集合或流(例如 X)映射到另一组整数或字符串(例如 Y)，例如许多 xi 映射到一个 yj。在这样做的同时，我想确保最多有 n xi 映射到单个 yj。与散列一样，我需要能够在给定 x 的情况下可靠地找到 y。

我想确保大多数 yj 有接近 n 数量的 xi 映射到它们(以避免非常稀疏的映射X 到 Y)。

我能想到的一个函数是商:

int BATCH_SIZE = 3;
public int map(int x) {
  return x / BATCH_SIZE;
}

对于顺序整数流，它可以很好地工作。例如流 1..9 将被映射到

1 -> 0
2 -> 0
3 -> 1
4 -> 1
5 -> 1
6 -> 2
7 -> 2
8 -> 2
9 -> 3

等等。但是，对于非连续的大整数和小批量(我的用例)，这可以生成超稀疏映射(大多数时候每个批量只有 1 个元素)。

是否有任何标准方法来生成这样的映射(批处理)

最佳答案

没有办法让它在这些假设下工作。

您需要知道流中有多少项目及其分布，或者您需要放宽将项目精确映射到批处理的能力。

假设您有来自流的项目 a 和 b。你打算把它们放在同一批处理吗？你不能回答这个问题，除非你知道你是否会得到更多的元素来填充 2 个或更多的批处理(如果你决定将它们放在不同的批处理中)。

如果您知道将有多少(甚至大约)，您可以获取它们的分布并以此为基础构建批处理。假设您有字符串哈希(在 32 位上均匀分布)。如果您知道您将获得 100 万件元素并且想要 100 件的批处理，则可以生成 2^32/(1.000.000/100) 的间隔并将其用作批处理 ID (yj)。这并不能保证您得到的批处理正好是 batch_size，但它们应该大约是 batch_size。如果分布不均匀，事情会更困难，但仍然可以做到。

如果您放宽将项目映射到批处理的能力，那么只需在它们从流中出来时将它们按每个 batch_size 分组即可。如果你有空间，你可以保留一个 steam 项目的 map 来批处理。

关于java - 生成多对一映射的算法/哈希函数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45182711/

24

4

0

文章推荐： java - Scala 包对象getClass

文章推荐： java - Bean 生命周期管理 Spring Boot

文章推荐： java - 将字符串表示形式转换为最小数字对象

详解C语言sscanf()函数、vsscanf()函数、vscanf()函数
C语言sscanf()函数：从字符串中读取指定格式的数据头文件： ?
php - 如何解释at()函数； substr()函数;伪代码中的exist()函数
最近，我有一个关于工作预评估的问题，即使查询了每个功能的工作原理，我也不知道如何解决。这是一个伪代码。下面是一个名为foo()的函数，该函数将被传递一个值并返回一个值。如果将以下值传递给foo函数，
VBS教程：函数-CStr 函数
CStr 函数返回表达式，该表达式已被转换为 String 子类型的 Variant。 CStr(expression) expression 参数是任意有效的表达式。说明通常，可以
VBS教程：函数-CSng 函数
CSng 函数返回表达式，该表达式已被转换为 Single 子类型的 Variant。 CSng(expression) expression 参数是任意有效的表达式。说明通常，可
VBS教程：函数-CreateObject 函数
CreateObject 函数创建并返回对 Automation 对象的引用。 CreateObject(servername.typename [, location]) 参数 serv
VBS教程：函数-Cos 函数
Cos 函数返回某个角的余弦值。 Cos(number) number 参数可以是任何将某个角表示为弧度的有效数值表达式。说明 Cos 函数取某个角并返回直角三角形两边的比值。此比值是
VBS教程：函数-CLng 函数
CLng 函数返回表达式，此表达式已被转换为 Long 子类型的 Variant。 CLng(expression) expression 参数是任意有效的表达式。说明通常，您可以使
VBS教程：函数-CInt 函数
CInt 函数返回表达式，此表达式已被转换为 Integer 子类型的 Variant。 CInt(expression) expression 参数是任意有效的表达式。说明通常，可
VBS教程：函数-Chr 函数
Chr 函数返回与指定的 ANSI 字符代码相对应的字符。 Chr(charcode) charcode 参数是可以标识字符的数字。说明从 0 到 31 的数字表示标准的不可打印的
VBS教程：函数-CDbl 函数
CDbl 函数返回表达式，此表达式已被转换为 Double 子类型的 Variant。 CDbl(expression) expression 参数是任意有效的表达式。说明通常，您可
VBS教程：函数-CDate 函数
CDate 函数返回表达式，此表达式已被转换为 Date 子类型的 Variant。 CDate(date) date 参数是任意有效的日期表达式。说明 IsDate 函数用于判断 d
VBS教程：函数-CCur 函数
CCur 函数返回表达式，此表达式已被转换为 Currency 子类型的 Variant。 CCur(expression) expression 参数是任意有效的表达式。说明通常，
VBS教程：函数-CByte 函数
CByte 函数返回表达式，此表达式已被转换为 Byte 子类型的 Variant。 CByte(expression) expression 参数是任意有效的表达式。说明通常，可以
VBS教程：函数-CBool 函数
CBool 函数返回表达式，此表达式已转换为 Boolean 子类型的 Variant。 CBool(expression) expression 是任意有效的表达式。说明如果 ex
VBS教程：函数-Atn 函数
Atn 函数返回数值的反正切值。 Atn(number) number 参数可以是任意有效的数值表达式。说明 Atn 函数计算直角三角形两个边的比值 (number) 并返回对应角的弧
VBS教程：函数-Asc 函数
Asc 函数返回与字符串的第一个字母对应的 ANSI 字符代码。 Asc(string) string 参数是任意有效的字符串表达式。如果 string 参数未包含字符，则将发生运行时错误。
VBS教程：函数-Array 函数
Array 函数返回包含数组的 Variant。 Array(arglist) arglist 参数是赋给包含在 Variant 中的数组元素的值的列表（用逗号分隔）。如果没有指定此参数，则
VBS教程：函数-Abs 函数
Abs 函数返回数字的绝对值。 Abs(number) number 参数可以是任意有效的数值表达式。如果 number 包含 Null，则返回 Null；如果是未初始化变量，则返回 0。
VBS教程：函数-FormatPercent 函数
FormatPercent 函数返回表达式，此表达式已被格式化为尾随有 % 符号的百分比（乘以 100 ）。 FormatPercent(expression[,NumDigitsAfterD
VBS教程：函数-FormatNumber 函数
FormatNumber 函数返回表达式，此表达式已被格式化为数值。 FormatNumber( expression [,NumDigitsAfterDecimal [,Inc

首页

博学

6Ren·AI

商城

java - 生成多对一映射的算法/哈希函数