python - Python timeit : Counter() vs defaultdict() vs dict() 的惊人结果-6ren

python - Python timeit : Counter() vs defaultdict() vs dict() 的惊人结果

转载作者：太空狗更新时间：2023-10-29 17:17:14

29

4

我用 timeit 获得了非常令人惊讶的结果，如果我做错了什么，有人能告诉我吗？我正在使用 Python 2.7。

这是文件 speedtest_init.py 的内容:

import random

to_count = [random.randint(0, 100) for r in range(60)]

这些是speedtest.py的内容:

__author__ = 'BlueTrin'

import timeit

def test_init1():
    print(timeit.timeit('import speedtest_init'))

def test_counter1():
    s = """\
    d = defaultdict(int);
    for i in speedtest_init.to_count:
        d[i] += 1
    """
    print(timeit.timeit(s, 'from collections import defaultdict; import speedtest_init;'))

def test_counter2():
    print(timeit.timeit('d = Counter(speedtest_init.to_count);', 'from collections import Counter; import speedtest_init;'))


if __name__ == "__main__":
    test_init1()
    test_counter1()
    test_counter2()

控制台输出为:

C:\Python27\python.exe C:/Dev/codility/chlorum2014/speedtest.py
2.71501962931
65.7090444503
91.2953839048

Process finished with exit code 0

我认为默认情况下 timeit() 运行 1000000 次代码，所以我需要将时间除以 1000000，但令人惊讶的是 Counter 比 defaultdict() 慢。

这是预期的吗？

编辑:

同样使用字典比默认字典(int)更快:

def test_counter3():
    s = """\
    d = {};
    for i in speedtest_init.to_count:
        if i not in d:
            d[i] = 1
        else:
            d[i] += 1
    """
    print(timeit.timeit(stmt=s, setup='from collections import defaultdict; import speedtest_init;')

最后一个版本比 defaultdict(int) 更快，这意味着除非您更关心可读性，否则您应该使用 dict() 而不是 defaultdict()。

最佳答案

是的，这是预料之中的； Counter() constructor 使用 Counter.update()，它使用 self.get() 加载初始值而不是依赖 __missing__。

此外，defaultdict __missing__ 工厂完全在 C 代码中处理，尤其是在使用另一种类型时，如 int() 本身已实现在 C 中。Counter 源代码是纯 Python，因此 Counter.__missing__ 方法需要 Python 框架才能执行。

因为 dict.get() 仍然在 C 中处理，构造函数方法是 Counter() 的更快方法，前提是您使用相同的技巧 Counter.update() 首先使用 self.get 查找并将其别名作为本地查找:

>>> import timeit
>>> import random
>>> import sys
>>> sys.version_info
sys.version_info(major=2, minor=7, micro=9, releaselevel='final', serial=0)
>>> to_count = [random.randint(0, 100) for r in range(60)]
>>> timeit.timeit('for i in to_count: c[i] += 1',
...               'from collections import Counter; from __main__ import to_count; c = Counter()',
...               number=10000)
0.2510359287261963
>>> timeit.timeit('for i in to_count: c[i] = c_get(i, 0) + 1',
...               'from collections import Counter; from __main__ import to_count; c = Counter(); c_get = c.get',
...               number=10000)
0.20978617668151855

defaultdict 和Counter 都是为功能而不是性能而构建的有用类；不依赖于 __missing__ 钩子(Hook)仍然可以更快:

>>> timeit.timeit('for i in to_count: d[i] = d_get(i, 0) + 1',
...               'from __main__ import to_count; d = {}; d_get = d.get',
...               number=10000)
0.11437392234802246

这是一个使用别名 dict.get() 方法的常规字典，以实现最高速度。但随后您还必须重新实现 Counter 或 Counter.most_common() 方法的包行为。 defaultdict 用例远不止于计数。

在 Python 3.2 中，更新 Counter() 通过添加处理这种情况的 C 库来提高速度；见issue 10667 .在 Python 3.4 上测试，Counter() 构造函数现在击败了别名 dict.get 的情况:

>>> timeit.timeit('Counter(to_count)',
...               'from collections import Counter; from __main__ import to_count',
...               number=100000)
0.8332311600097455
>>> timeit.timeit('for i in to_count: d[i] = d_get(i, 0) + 1',
...               'from __main__ import to_count; d = {}; d_get = d.get',
...               number=100000)
0.961191965994658
>>> import sys
>>> sys.version_info
sys.version_info(major=3, minor=4, micro=2, releaselevel='final', serial=0)

(注意:为了获得有意义的计时结果，迭代次数从 10k 增加到 100k；因此，如果您将这些与上面的 dict.get() 情况进行比较，您需要采取计时有十次，在 1.144 秒)。

关于python - Python timeit : Counter() vs defaultdict() vs dict() 的惊人结果，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27801945/

29

4

0

文章推荐： typescript - Angular 2 : ngModel binding for radio input of boolean type

文章推荐： python - win32 上的条目消息 : [MSC v. 1500 64 位 (AMD64)]

python - 通过 dict of dict of dict 计算值
我有以下数据: foo red test foo red test foo red test2 foo blue test bar red test bar blue test bar red tes
python - 将 2d dict 的 dict 内的值除以与该键匹配的另一个 dicts 值
这些字典很长，我需要循环遍历多个键值。举一个简短的例子。从长远来看，我需要将所有数字除以适当的计数以获得平均值。 counts = {'A':10, 'B':14} totals = {'A':{'a
python - 如何在 dict 创建期间从另一个 dict 构建 Python dict 值？
我想构建一个字典，其中一个值是从另一个值构建的。我想写 d = { 'a':1, 'b':self['a']+1 } 但它没有按预期工作: >>> {'a':1, 'b':self[
python - 当 dict 用作另一个 dict 的键时，TypeError : unhashable type: 'dict' ,
这个问题在这里已经有了答案: TypeError: unhashable type: 'dict' (4 个回答) 关闭5年前。我有这段代码: for element in json[referen
Python:对这个字典进行排序(dict in dict)
d = { 'a':{'k':1, 'b':'whatever'}, 'b':{'k':2, 'b':'sort by k'} } 想在 python 中按 k 降序对这个字典进行排序。有点棘手，
python - 如何将 defaultdicts [of defaultdicts] 的 defaultdict 转换为 dicts [of dicts] 的 dict？
使用 this answer ，我创建了 defaultdict 的 defaultdict。现在，我想把那个嵌套很深的 dict 对象变回一个普通的 python dict。 from collec
python - Pandas:将数据框列转换为 dict，其中 col 标题作为 dict 键，col 值作为 dict 值
我有一个如下所示的数据框: NAME ID 155 ARBITRARY_A 697381 208 ARBITRARY_B 691820 2
Python 类型列表[Dict] 与列表[dict]
在添加类型提示 python 函数中哪个是首选？ from typing import List, Dict def example_1() -> List[Dict]: pass def e
python - 字典结构(dict -> dict)与比较中的列表
有这个字典 -> 字典 -> 列表结构想要比较这种类型的 2 个结构。 one = {"1iG5NDGVre": {"118": ["test1", "test2", "test3", "tcp",
python - 递归搜索和修改复杂对象(dict ofists of dicts)
我有一个复杂的对象。目前它是字典列表的字典。但将来可能会发生变化，同时仍然只使用列表和字典。我想查找所有类型为“datetime”的列表元素或字典值并将它们更改为字符串。递归搜索似乎有效，但无法
python - Django-不支持的操作数类型/: 'dict' and 'dict'
我不知道如何在 html 中显示“净利润”的结果，这是 net_profit/sales 的结果。我不想把这个除法公式直接放在html中，因为除此之外还有很多其他复杂的计算。那么如何把这个除法结果同
列表的 Python dict 到单项匹配索引的 dict
我找不到与此用例类似的问题。我有一个包含列表的字典，我想从每个列表中提取一个特定的索引，并将其分配到一个具有相同键的新字典中。 dict1 = { 'key1': ['a', 'b', 'c'],
python - 为什么 dict(dict) 得到相同的字典？
这听起来可能很愚蠢。当我在 python 中重写 dict 时: class idict(dict): def __init__ (self, *args, **kwargs):
python - 将 dict 的元组键转换为新的 dict
我有一个像这样的 dict: { ('America', 25, 'm', 'IT'): 10000, ('America', 22, 'm', 'IT'): 8999, ('
键上的 Python dict of dict 正则表达式
我仍在努力学习 Python 中的字典。是否可以使用正则表达式或 startswith 函数在字典中引用键？我有以下格式的字典，我正在尝试对“AreaOfInterest1”、“AreaOfInte
python - 如何将 dict 功能重新分配回 'dict' ？
这个问题在这里已经有了答案: How to restore a builtin that I overwrote by accident? (3 个答案) 关闭 5 年前。我不小心为关键字 dic
Python:如何遍历一个列表[Dict{List[Dict{}]}]
我只是想知道是否有一种简单的方法可以做到这一点。我有一个从文件解析的特定结构，输出是一个字典列表的一个列表。目前，我只有一些看起来像这样的代码: for i in xrange(len(data)):
Python:dict within dict，通配符第一个键
我想在字典中匹配字典的数据。这: print(a["myval"]["val1"]) 努力获得所需的输出。但是我想“通配” myval 条目。同时输出 myval2 的结果 print(a['*'][
dictionary - React JS setState({dict : dict })
我想知道这是否是用两个字典更新状态的正确解决方案 var PopulationCityView = React.createClass({ getInitialState: function(
python - CSV 到 dict，dict 找不到该项目
我正在将 CSV 转换为 dict，所有值均已正确加载，但有一个问题。 CSV: Testing testing\nwe are into testing mode My\nServer Thi

首页

博学

6Ren·AI

商城

python - Python timeit : Counter() vs defaultdict() vs dict() 的惊人结果