- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我用 timeit 获得了非常令人惊讶的结果,如果我做错了什么,有人能告诉我吗?我正在使用 Python 2.7。
这是文件 speedtest_init.py 的内容:
import random
to_count = [random.randint(0, 100) for r in range(60)]
这些是speedtest.py的内容:
__author__ = 'BlueTrin'
import timeit
def test_init1():
print(timeit.timeit('import speedtest_init'))
def test_counter1():
s = """\
d = defaultdict(int);
for i in speedtest_init.to_count:
d[i] += 1
"""
print(timeit.timeit(s, 'from collections import defaultdict; import speedtest_init;'))
def test_counter2():
print(timeit.timeit('d = Counter(speedtest_init.to_count);', 'from collections import Counter; import speedtest_init;'))
if __name__ == "__main__":
test_init1()
test_counter1()
test_counter2()
控制台输出为:
C:\Python27\python.exe C:/Dev/codility/chlorum2014/speedtest.py
2.71501962931
65.7090444503
91.2953839048
Process finished with exit code 0
我认为默认情况下 timeit() 运行 1000000 次代码,所以我需要将时间除以 1000000,但令人惊讶的是 Counter 比 defaultdict() 慢。
这是预期的吗?
编辑:
同样使用字典比默认字典(int)更快:
def test_counter3():
s = """\
d = {};
for i in speedtest_init.to_count:
if i not in d:
d[i] = 1
else:
d[i] += 1
"""
print(timeit.timeit(stmt=s, setup='from collections import defaultdict; import speedtest_init;')
最后一个版本比 defaultdict(int) 更快,这意味着除非您更关心可读性,否则您应该使用 dict() 而不是 defaultdict()。
最佳答案
是的,这是预料之中的; Counter()
constructor 使用 Counter.update()
,它使用 self.get()
加载初始值而不是依赖 __missing__
。
此外,defaultdict
__missing__
工厂完全在 C 代码中处理,尤其是在使用另一种类型时,如 int()
本身已实现在 C 中。Counter
源代码是纯 Python,因此 Counter.__missing__
方法需要 Python 框架才能执行。
因为 dict.get()
仍然在 C 中处理,构造函数方法是 Counter()
的更快方法,前提是您使用相同的技巧 Counter.update()
首先使用 self.get
查找并将其别名作为本地查找:
>>> import timeit
>>> import random
>>> import sys
>>> sys.version_info
sys.version_info(major=2, minor=7, micro=9, releaselevel='final', serial=0)
>>> to_count = [random.randint(0, 100) for r in range(60)]
>>> timeit.timeit('for i in to_count: c[i] += 1',
... 'from collections import Counter; from __main__ import to_count; c = Counter()',
... number=10000)
0.2510359287261963
>>> timeit.timeit('for i in to_count: c[i] = c_get(i, 0) + 1',
... 'from collections import Counter; from __main__ import to_count; c = Counter(); c_get = c.get',
... number=10000)
0.20978617668151855
defaultdict
和Counter
都是为功能而不是性能而构建的有用类;不依赖于 __missing__
钩子(Hook)仍然可以更快:
>>> timeit.timeit('for i in to_count: d[i] = d_get(i, 0) + 1',
... 'from __main__ import to_count; d = {}; d_get = d.get',
... number=10000)
0.11437392234802246
这是一个使用别名 dict.get()
方法的常规字典,以实现最高速度。但随后您还必须重新实现 Counter
或 Counter.most_common()
方法的包行为。 defaultdict
用例远不止于计数。
在 Python 3.2 中,更新 Counter()
通过添加处理这种情况的 C 库来提高速度;见issue 10667 .在 Python 3.4 上测试,Counter()
构造函数现在击败了别名 dict.get
的情况:
>>> timeit.timeit('Counter(to_count)',
... 'from collections import Counter; from __main__ import to_count',
... number=100000)
0.8332311600097455
>>> timeit.timeit('for i in to_count: d[i] = d_get(i, 0) + 1',
... 'from __main__ import to_count; d = {}; d_get = d.get',
... number=100000)
0.961191965994658
>>> import sys
>>> sys.version_info
sys.version_info(major=3, minor=4, micro=2, releaselevel='final', serial=0)
(注意:为了获得有意义的计时结果,迭代次数从 10k 增加到 100k;因此,如果您将这些与上面的 dict.get()
情况进行比较,您需要采取计时有十次,在 1.144 秒)。
关于python - Python timeit : Counter() vs defaultdict() vs dict() 的惊人结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27801945/
我有以下数据: foo red test foo red test foo red test2 foo blue test bar red test bar blue test bar red tes
这些字典很长,我需要循环遍历多个键值。举一个简短的例子。从长远来看,我需要将所有数字除以适当的计数以获得平均值。 counts = {'A':10, 'B':14} totals = {'A':{'a
我想构建一个字典,其中一个值是从另一个值构建的。 我想写 d = { 'a':1, 'b':self['a']+1 } 但它没有按预期工作: >>> {'a':1, 'b':self[
这个问题在这里已经有了答案: TypeError: unhashable type: 'dict' (4 个回答) 关闭5年前。 我有这段代码: for element in json[referen
d = { 'a':{'k':1, 'b':'whatever'}, 'b':{'k':2, 'b':'sort by k'} } 想在 python 中按 k 降序对这个字典进行排序。 有点棘手,
使用 this answer ,我创建了 defaultdict 的 defaultdict。现在,我想把那个嵌套很深的 dict 对象变回一个普通的 python dict。 from collec
我有一个如下所示的数据框: NAME ID 155 ARBITRARY_A 697381 208 ARBITRARY_B 691820 2
在添加类型提示 python 函数中哪个是首选? from typing import List, Dict def example_1() -> List[Dict]: pass def e
有这个字典 -> 字典 -> 列表结构 想要比较这种类型的 2 个结构。 one = {"1iG5NDGVre": {"118": ["test1", "test2", "test3", "tcp",
我有一个复杂的对象。 目前它是字典列表的字典。但将来可能会发生变化,同时仍然只使用列表和字典。 我想查找所有类型为“datetime”的列表元素或字典值并将它们更改为字符串。 递归搜索似乎有效,但无法
我不知道如何在 html 中显示“净利润”的结果,这是 net_profit/sales 的结果。我不想把这个除法公式直接放在html中,因为除此之外还有很多其他复杂的计算。 那么如何把这个除法结果同
我找不到与此用例类似的问题。 我有一个包含列表的字典,我想从每个列表中提取一个特定的索引,并将其分配到一个具有相同键的新字典中。 dict1 = { 'key1': ['a', 'b', 'c'],
这听起来可能很愚蠢。当我在 python 中重写 dict 时: class idict(dict): def __init__ (self, *args, **kwargs):
我有一个像这样的 dict: { ('America', 25, 'm', 'IT'): 10000, ('America', 22, 'm', 'IT'): 8999, ('
我仍在努力学习 Python 中的字典。是否可以使用正则表达式或 startswith 函数在字典中引用键? 我有以下格式的字典,我正在尝试对“AreaOfInterest1”、“AreaOfInte
这个问题在这里已经有了答案: How to restore a builtin that I overwrote by accident? (3 个答案) 关闭 5 年前。 我不小心为关键字 dic
我只是想知道是否有一种简单的方法可以做到这一点。我有一个从文件解析的特定结构,输出是一个字典列表的一个列表。目前,我只有一些看起来像这样的代码: for i in xrange(len(data)):
我想在字典中匹配字典的数据。这: print(a["myval"]["val1"]) 努力获得所需的输出。但是我想“通配” myval 条目。同时输出 myval2 的结果 print(a['*'][
我想知道这是否是用两个字典更新状态的正确解决方案 var PopulationCityView = React.createClass({ getInitialState: function(
我正在将 CSV 转换为 dict,所有值均已正确加载,但有一个问题。 CSV: Testing testing\nwe are into testing mode My\nServer Thi
我是一名优秀的程序员,十分优秀!