python - 集合运算的奇怪表现-6ren

python - 集合运算的奇怪表现

转载作者：行者123 更新时间：2023-12-01 03:19:24

25

4

所有这些结果都是使用 CPython 3.5.2 获得的。

我注意到 set 类的某些操作有奇怪的表现。

我测量了执行仅包含整数的两个集合的并集所需的时间。当然，这个时间取决于集合的大小。令人惊讶的是，它还取决于整数的“密度”。这是一个情节:

x 轴是两组大小的总和(对于每次体验，两组都是随机且彼此独立选择的)。y 轴是时间，以秒为单位(对数刻度)。

密度d表示集合是通过从总共N/d个整数中采样N个整数来实例化的。换句话说，对于密度 0.5，我们取某个区间的整数的二分之一，而对于密度 0.1，我们取某个(更大)区间的整数的十分之一。

这是获得一些结果的最小代码(如果需要，我可以发布用于绘图的完整代码，但它更长)。

import time
import random
import numpy

def get_values(size, density):
    return set(random.sample(range(int(size/density)), size))

def perform_op(size, density):
    values1 = get_values(size, density)
    values2 = get_values(size, density)
    t = time.time()
    result = values1 | values2
    return time.time()-t

size = 10000000
for density in [0.05, 0.1, 0.5, 0.99]:
    times = [perform_op(size, density) for _ in range(10)]
    print('density: %.2f, mean time: %.4f, standard deviation: %.4f' % (density, numpy.mean(times), numpy.std(times)))

联盟:

density: 0.05, time: 0.9846, standard deviation: 0.0440
density: 0.10, time: 1.0141, standard deviation: 0.0204
density: 0.50, time: 0.5477, standard deviation: 0.0059
density: 0.99, time: 0.3440, standard deviation: 0.0020

在集合具有相同大小的情况下，最快和最慢之间的计算时间大约相差 3 倍。此外，低密度的变化性更大。

有趣的是，对于交集(在perform_op函数中将values1 |values2替换为values1＆values2)，我们还有非恒定性能，但模式不同:

density: 0.05, time: 0.3928, standard deviation: 0.0046
density: 0.10, time: 0.4876, standard deviation: 0.0041
density: 0.50, time: 0.5975, standard deviation: 0.0127
density: 0.99, time: 0.3806, standard deviation: 0.0015

我没有测试其他集合操作。

我不明白为什么会有这样的差异。据我所知，Python 集合是通过哈希表实现的，因此只要哈希值分布良好，整数的密度就不重要。

这些不同表现的起源是什么？

最佳答案

这里有两个主要影响因素:

您正在生成不同尺寸的输出；对于密集的输入，绝大多数值都会重叠，因此最终会产生更小的输出。
int 有一个非常简单的哈希码；它只是 int 的值。所以hash(1234) == 1234。对于密集输入，这意味着您拥有大部分连续的哈希码，没有重叠，因为这些值始终小于 set 存储桶的数量(例如，对于 100,000 个值，您有 262,144 个存储桶；当值很密集，您的哈希代码范围从 0 到 101,010，因此不会发生实际的环绕模 262,144)。更重要的是，散列码很大程度上是连续的，这意味着内存是以很大程度上连续的模式访问的(有助于 CPU 缓存获取启发)。对于稀疏输入，这不适用；您将有许多不相等的值散列到同一个存储桶(因为 0.05 情况下的 2,000,000 个值中的每一个都有 7-8 个不同的值，当有 262,144 个存储桶时，这些值将散列到同一个存储桶)。由于 Python 使用封闭散列(又名开放寻址)，因此与不相等值的存储桶冲突最终会跳过整个内存(防止 CPU 缓存提供尽可能多的帮助)来查找新值的存储桶。

演示桶碰撞问题:

>>> import random
>>> vals = random.sample(xrange(int(100000/0.99)), 100000)
>>> vals_sparse = random.sample(xrange(int(100000/0.05)), 100000)

# Check the number of unique buckets hashed to for dense and sparse values
>>> len({hash(v) % 262144 for v in vals})
100000  # No bucket overlap at all
>>> len({hash(v) % 262144 for v in vals_sparse})
85002   # ~15% of all values generated produced a bucket collision

每个发生冲突的值都必须在集合中跳跃，寻找未占用的存储桶，密集的值根本不会发生冲突，因此它们完全避免了这种成本。

如果您想要一个解决这两个问题的测试(同时仍然使用密集和稀疏输入)，请尝试使用 float (不等于 int 值) ，因为 float 哈希尝试将 int 等效的 float 哈希为与 int 相同的值)。为了避免实际相等值的不同级别，请从不重叠的值中选择输入，因此稀疏与密集不会改变生成的并集的大小。这是我使用的代码，无论密度如何，最终都会得到相当均匀的时间:

import time
import random
import numpy

def get_values(size, density, evens=True):
    if evens:
        # Divide by 100. to get floats with much more varied hashes
        vals = random.sample([x / 100. for x in xrange(0, int(size/density * 2), 2)], size)
    else:
        vals = random.sample([x / 100. for x in xrange(1, int(size/density * 2), 2)], size)
    return set(vals)

def perform_op(size, density):
    values1 = get_values(size, density)
    values2 = get_values(size, density, False)  # Select from non-overlapping values
    t = time.time()
    result = values1 | values2
    return time.time()-t, len(result)

size = 100000
for density in [0.05, 0.1, 0.5, 0.99]:
    times = [perform_op(size, density) for _ in range(10)]
    resultlens = [r for _, r in times]
    times = [t for t, _ in times]
    print('density: %.2f, mean time: %.4f, standard deviation: %.4f' % (density, numpy.mean(times), numpy.std(times)))
    print(numpy.mean(resultlens))

关于python - 集合运算的奇怪表现，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42077944/

25

4

0

文章推荐： python - 将模块导入 python shell

文章推荐： JQuery 事件在附加后未触发

文章推荐： JQuery Ajax 永远不会成功

文章推荐： dictionary - 崇高的文本 3 : Remove a mis-spelled word the dictionary

javascript - 谷歌地图自动完成弹回已经清除的文本......奇怪......奇怪......奇怪
我有这种来自 Google map 自动完成的奇怪行为(或者我可能错过了某事)...想法？奇怪的: 您在输入中输入某物，例如“伦敦” 您按 [ENTER] 你按下 [CLEAR] 按钮你点击进入'输
Java意外类型做字符串比较，奇怪
这段代码与《Learning Java》(Oracle Press Books)一书中的代码完全一样，但它不起作用。我不明白为什么它不起作用，它应该起作用。我用 OpenJDK 和 Sun JDK 7
Powershell 对新行使用反引号 - 奇怪
示例 1 中究竟发生了什么？这是如何解析的？ # doesnt split on , [String]::Join(",",("aaaaa,aaaaa,aaaaa,aaaaa,aaaaa,aa
iphone - 指针类型不兼容？？奇怪
我需要获得方程式系统的解决方案。为此，我使用函数sgesv_()。一切都很好，它使我感到解决方案的正确结果。但是我得到一个奇怪的警告。警告:从不兼容的指针类型传递'sgesv_'的参数3 我正在
ios - 奇怪!动画完成后是否一直调用函数？
我目前在制作动画时遇到一个奇怪的问题: [UIView animateWithDuration:3 delay:0
jQuery 不工作 - 奇怪
alert('works'); $(window).load(function () { alert('does not work'); });
java - 静态内部类 - 奇怪
我的代码: public class MyTest { public class StringSorter implements Comparator { public
JavaScript 对象更新行为(奇怪？)
我正在学习 JavaScript。尝试理解代码， function foo (){ var a = b = {name: 'Hai'}; document.write(a.name +''
c++ - GetLastError() != 奇怪
这个问题不太可能帮助任何 future 的访问者；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关，这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用，visit
Linux 环境 -i 奇怪
这按预期工作: [dgorur@ted ~]$ env -i env [dgorur@ted ~]$ 这样做: [dgorur@ted ~]$ env -i which date which: no
c++ - 指针增量 - 奇怪
struct BLA { int size_; int size()const{ return size_; } } int x; BLA b[ 2 ]; BLA * p = &b[
css - 图像垂直对齐与 css - 奇怪
我有以下代码: #test img {vertical-align: middle;} div#test { border: 1px solid green; height: 150px; li
gcc - (奇怪？)GCC 预处理器行为
我想大多数使用过 C/C++ 的人都对预处理器的工作原理有一定的直觉(或多或少)。直到今天我也是这么认为的，但事实证明我的直觉是错误的。故事是这样的: 今天我尝试了一些东西，但我无法解释结果。首先考虑
OCMock只生效一次，奇怪，为什么？或者我这边有什么问题？
我想为 TnSettings 做 mock，是的，如果通过以下方法编写代码，它就可以工作，问题是我们需要为每个案例编写 mock 代码，如果我们只 mock 一次然后执行多个案例，那么第二个将报告异常
c - 溢出？找不到来源，奇怪
我的项目中有以下两个结构 typedef volatile struct { unsigned char rx_buf[MAX_UART_BUF]; //Input buffer over U
c# - 奇怪，regex.split方法匹配一个null元素
Regex rx = new Regex(@"[+-]"); string[] substrings = rx.Split(expression); expression = "-9a3dcb
java - JDBC 连接被对等方关闭(奇怪)
我的两个应用程序遇到了一个奇怪的问题。这是设置: 两个 tomcat/java 应用程序，在同一个网络中运行，连接到相同的 MS-SQL-Server。一个应用程序，恰好按顺序位于 DMZ 中可从互联
Android OnLongClickListener 奇怪/不可靠的行为
我目前正在与 Android Api Lvl 8 上的 OnLongClickListener 作斗争。拿这段代码: this.webView.setOnLongClickListener(new
java - JUnit 奇怪 - 我未指定预期数量
这个问题不太可能帮助任何 future 的访问者；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况相关，这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用，visit
objective-c - performSelectorOnMainThread 奇怪
只是遇到了奇怪的事情。我有以下代码: -(void)ImageDownloadCompleat { [self performSelectorOnMainThread:@selector(up

首页

博学

6Ren·AI

商城

python - 集合运算的奇怪表现