- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我知道对数字列表求和的最快方法是使用内置函数 sum
。使用 for
循环进行求和可能比使用 reduce
慢。但是,当我尝试时,事实并非如此。有人可以解释这个结果吗?
import time, random, operator
sample = [random.randrange(10000) for _ in range(1000000)]
def use_for(l):
acc = 0
for n in l:
acc += n
print acc
def use_lambda(l):
print reduce(operator.add, l)
print time.time()
use_for(l)
print time.time()
use_lambda(l)
print time.time()
我得到的时间:
1479671513.04
4998734199
1479671513.07
4998734199
1479671513.13
最佳答案
让我向您展示如何更系统地执行此操作。首先,您应该使用 timeit
模块进行基准测试。正确使用有点尴尬,但准确得多。其次,绝对确定您没有做任何您关心的测试中的基准测试工作。特别是,你不应该在被测函数中打印出任何东西,因为打印东西很昂贵。第三,您应该在长度范围上测试每个候选函数,然后绘制结果图。第四,您不需要达到一百万个数字即可获得有用的结果。
import csv
import operator
import random
import sys
from functools import partial, reduce
from timeit import timeit
lengths = [10, 20, 50, 100, 200, 500, 1000, 2000, 5000, 10000, 20000, 50000]
samples = [ [random.randrange(10000) for i in range(n)]
for n in lengths ]
def use_for(l):
acc = 0
for n in l: acc += n
return acc
def use_reduce(l):
return reduce(operator.add, l)
def use_sum(l):
return sum(l)
def main():
with sys.stdout as ofp:
wr = csv.writer(ofp, lineterminator='\n', quoting=csv.QUOTE_MINIMAL)
wr.writerow(('len','for loop','reduce','sum'))
for length, sample in zip(lengths, samples):
t_for = timeit(partial(use_for, sample), number=1000)
t_red = timeit(partial(use_reduce, sample), number=1000)
t_sum = timeit(partial(use_sum, sample), number=1000)
wr.writerow((length, t_for, t_red, t_sum))
main()
我们运行这个测试程序,然后绘制输出。你没有说你是在使用 Python 2 还是 3,所以我写了上面的代码来使用它们中的任何一个,并且我对这两种方式都进行了测试。 [编辑:因为另一个答案提到了它,我现在也测试了 PyPy。] 不要担心我正在做的绘图的细节- ggplot
非常值得学习,但它以及它所嵌入的 R 语言可能非常神秘。
$ python2 sumbench.py > sumbench-2.csv
$ python3 sumbench.py > sumbench-3.csv
$ pypy sumbench.py > sumbench-P.csv
$ R --quiet
> suppressPackageStartupMessages({ library(reshape2); library(ggplot2); })
> data2 <- melt(read.csv('sumbench-2.csv'), id.var='len')
> data3 <- melt(read.csv('sumbench-3.csv'), id.var='len')
> dataP <- melt(read.csv('sumbench-P.csv'), id.var='len')
> data2$interp <- ordered('CPython 2', levels=c('CPython 2','CPython 3','PyPy'))
> data3$interp <- ordered('CPython 3', levels=c('CPython 2','CPython 3','PyPy'))
> dataP$interp <- ordered('PyPy', levels=c('CPython 2','CPython 3','PyPy'))
> data <- rbind(data2, data3, dataP)
> colnames(data) <- c("Input length", "Algorithm", "Time (ms)", "Interpreter")
> ggplot(data, aes(x=`Input length`, y=`Time (ms)`,
colour=`Algorithm`, linetype=`Algorithm`)) +
facet_grid(.~`Interpreter`) + geom_line() +
theme_grey(base_size=9) +
theme(legend.position=c(0.01,0.98), legend.justification=c(0,1))
这非常清楚地表明使用 reduce
确实比 for
循环慢,但是 sum
比任何一个都快得多。它还清楚地表明 CPython 3.5 在这方面比 2.7 慢,这是令人遗憾但意料之中的。 PyPy 不仅比它们中的任何一个快 5 倍,而且所有三种算法的性能都一样好!当您对此类代码使用真正的优化编译器时,就会发生这种情况。 (PyPy 比 CPython 的 sum()
内在函数更快,因为它可以计算出数组的所有元素都是数字,并切掉一堆每个元素的开销。sum
NumPy 数组的方法可能与 PyPy 一样快或更快。)
在对数-对数刻度上绘制这样的数据通常很好 - 这也是我选择我所做的长度的原因:
> last_plot() + scale_x_log10() + scale_y_log10()
现在看到它们的坡度大致相同了吗?这意味着 asymptotic complexity这三种技术的复杂性是相同的,O(n),只是常数因子不同。渐近复杂性很重要,因为它可以让您预测更大的输入需要多长时间。在这种情况下,如果我们想知道原始测试用例需要多长时间,我们可以将这三行扩展到 x 轴上的一百万。使用不同的大 O,我们会看到曲线,我们需要以不同的方式推断它们。
我们还可以看到 sum() 的曲线有一个弯曲,这在线性图上是完全看不见的;这意味着在实现中可能会有一些特殊的短列表。而且更清楚的是,reduce
的性能与 2 中手写的 for
循环非常接近,但不是 3; reduce
不再是3中的内置函数,但它仍然在编译代码中实现,所以我对此没有解释。我们可以看到 PyPy 在开始时以一种不可预测的方式显着慢:这是因为被基准测试函数的即时编译成本已归因于早期调用。我可以在基准测试中添加一个“热身”步骤并让它消失,但了解它是一件好事。
另一方面,CPython 3 明显比 CPython 2 慢的事实在对数-对数图中更难看出。
关于python:总和的速度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40708668/
我正在处理一组标记为 160 个组的 173k 点。我想通过合并最接近的(到 9 或 10 个组)来减少组/集群的数量。我搜索过 sklearn 或类似的库,但没有成功。 我猜它只是通过 knn 聚类
我有一个扁平数字列表,这些数字逻辑上以 3 为一组,其中每个三元组是 (number, __ignored, flag[0 or 1]),例如: [7,56,1, 8,0,0, 2,0,0, 6,1,
我正在使用 pipenv 来管理我的包。我想编写一个 python 脚本来调用另一个使用不同虚拟环境(VE)的 python 脚本。 如何运行使用 VE1 的 python 脚本 1 并调用另一个 p
假设我有一个文件 script.py 位于 path = "foo/bar/script.py"。我正在寻找一种在 Python 中通过函数 execute_script() 从我的主要 Python
这听起来像是谜语或笑话,但实际上我还没有找到这个问题的答案。 问题到底是什么? 我想运行 2 个脚本。在第一个脚本中,我调用另一个脚本,但我希望它们继续并行,而不是在两个单独的线程中。主要是我不希望第
我有一个带有 python 2.5.5 的软件。我想发送一个命令,该命令将在 python 2.7.5 中启动一个脚本,然后继续执行该脚本。 我试过用 #!python2.7.5 和http://re
我在 python 命令行(使用 python 2.7)中,并尝试运行 Python 脚本。我的操作系统是 Windows 7。我已将我的目录设置为包含我所有脚本的文件夹,使用: os.chdir("
剧透:部分解决(见最后)。 以下是使用 Python 嵌入的代码示例: #include int main(int argc, char** argv) { Py_SetPythonHome
假设我有以下列表,对应于及时的股票价格: prices = [1, 3, 7, 10, 9, 8, 5, 3, 6, 8, 12, 9, 6, 10, 13, 8, 4, 11] 我想确定以下总体上最
所以我试图在选择某个单选按钮时更改此框架的背景。 我的框架位于一个类中,并且单选按钮的功能位于该类之外。 (这样我就可以在所有其他框架上调用它们。) 问题是每当我选择单选按钮时都会出现以下错误: co
我正在尝试将字符串与 python 中的正则表达式进行比较,如下所示, #!/usr/bin/env python3 import re str1 = "Expecting property name
考虑以下原型(prototype) Boost.Python 模块,该模块从单独的 C++ 头文件中引入类“D”。 /* file: a/b.cpp */ BOOST_PYTHON_MODULE(c)
如何编写一个程序来“识别函数调用的行号?” python 检查模块提供了定位行号的选项,但是, def di(): return inspect.currentframe().f_back.f_l
我已经使用 macports 安装了 Python 2.7,并且由于我的 $PATH 变量,这就是我输入 $ python 时得到的变量。然而,virtualenv 默认使用 Python 2.6,除
我只想问如何加快 python 上的 re.search 速度。 我有一个很长的字符串行,长度为 176861(即带有一些符号的字母数字字符),我使用此函数测试了该行以进行研究: def getExe
list1= [u'%app%%General%%Council%', u'%people%', u'%people%%Regional%%Council%%Mandate%', u'%ppp%%Ge
这个问题在这里已经有了答案: Is it Pythonic to use list comprehensions for just side effects? (7 个答案) 关闭 4 个月前。 告
我想用 Python 将两个列表组合成一个列表,方法如下: a = [1,1,1,2,2,2,3,3,3,3] b= ["Sun", "is", "bright", "June","and" ,"Ju
我正在运行带有最新 Boost 发行版 (1.55.0) 的 Mac OS X 10.8.4 (Darwin 12.4.0)。我正在按照说明 here构建包含在我的发行版中的教程 Boost-Pyth
学习 Python,我正在尝试制作一个没有任何第 3 方库的网络抓取工具,这样过程对我来说并没有简化,而且我知道我在做什么。我浏览了一些在线资源,但所有这些都让我对某些事情感到困惑。 html 看起来
我是一名优秀的程序员,十分优秀!