- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我知道对数字列表求和的最快方法是使用内置函数 sum
。使用 for
循环进行求和可能比使用 reduce
慢。但是,当我尝试时,事实并非如此。有人可以解释这个结果吗?
import time, random, operator
sample = [random.randrange(10000) for _ in range(1000000)]
def use_for(l):
acc = 0
for n in l:
acc += n
print acc
def use_lambda(l):
print reduce(operator.add, l)
print time.time()
use_for(l)
print time.time()
use_lambda(l)
print time.time()
我得到的时间:
1479671513.04
4998734199
1479671513.07
4998734199
1479671513.13
最佳答案
让我向您展示如何更系统地执行此操作。首先,您应该使用 timeit
模块进行基准测试。正确使用有点尴尬,但准确得多。其次,绝对确定您没有做任何您关心的测试中的基准测试工作。特别是,你不应该在被测函数中打印出任何东西,因为打印东西很昂贵。第三,您应该在长度范围上测试每个候选函数,然后绘制结果图。第四,您不需要达到一百万个数字即可获得有用的结果。
import csv
import operator
import random
import sys
from functools import partial, reduce
from timeit import timeit
lengths = [10, 20, 50, 100, 200, 500, 1000, 2000, 5000, 10000, 20000, 50000]
samples = [ [random.randrange(10000) for i in range(n)]
for n in lengths ]
def use_for(l):
acc = 0
for n in l: acc += n
return acc
def use_reduce(l):
return reduce(operator.add, l)
def use_sum(l):
return sum(l)
def main():
with sys.stdout as ofp:
wr = csv.writer(ofp, lineterminator='\n', quoting=csv.QUOTE_MINIMAL)
wr.writerow(('len','for loop','reduce','sum'))
for length, sample in zip(lengths, samples):
t_for = timeit(partial(use_for, sample), number=1000)
t_red = timeit(partial(use_reduce, sample), number=1000)
t_sum = timeit(partial(use_sum, sample), number=1000)
wr.writerow((length, t_for, t_red, t_sum))
main()
我们运行这个测试程序,然后绘制输出。你没有说你是在使用 Python 2 还是 3,所以我写了上面的代码来使用它们中的任何一个,并且我对这两种方式都进行了测试。 [编辑:因为另一个答案提到了它,我现在也测试了 PyPy。] 不要担心我正在做的绘图的细节- ggplot
非常值得学习,但它以及它所嵌入的 R 语言可能非常神秘。
$ python2 sumbench.py > sumbench-2.csv
$ python3 sumbench.py > sumbench-3.csv
$ pypy sumbench.py > sumbench-P.csv
$ R --quiet
> suppressPackageStartupMessages({ library(reshape2); library(ggplot2); })
> data2 <- melt(read.csv('sumbench-2.csv'), id.var='len')
> data3 <- melt(read.csv('sumbench-3.csv'), id.var='len')
> dataP <- melt(read.csv('sumbench-P.csv'), id.var='len')
> data2$interp <- ordered('CPython 2', levels=c('CPython 2','CPython 3','PyPy'))
> data3$interp <- ordered('CPython 3', levels=c('CPython 2','CPython 3','PyPy'))
> dataP$interp <- ordered('PyPy', levels=c('CPython 2','CPython 3','PyPy'))
> data <- rbind(data2, data3, dataP)
> colnames(data) <- c("Input length", "Algorithm", "Time (ms)", "Interpreter")
> ggplot(data, aes(x=`Input length`, y=`Time (ms)`,
colour=`Algorithm`, linetype=`Algorithm`)) +
facet_grid(.~`Interpreter`) + geom_line() +
theme_grey(base_size=9) +
theme(legend.position=c(0.01,0.98), legend.justification=c(0,1))
这非常清楚地表明使用 reduce
确实比 for
循环慢,但是 sum
比任何一个都快得多。它还清楚地表明 CPython 3.5 在这方面比 2.7 慢,这是令人遗憾但意料之中的。 PyPy 不仅比它们中的任何一个快 5 倍,而且所有三种算法的性能都一样好!当您对此类代码使用真正的优化编译器时,就会发生这种情况。 (PyPy 比 CPython 的 sum()
内在函数更快,因为它可以计算出数组的所有元素都是数字,并切掉一堆每个元素的开销。sum
NumPy 数组的方法可能与 PyPy 一样快或更快。)
在对数-对数刻度上绘制这样的数据通常很好 - 这也是我选择我所做的长度的原因:
> last_plot() + scale_x_log10() + scale_y_log10()
现在看到它们的坡度大致相同了吗?这意味着 asymptotic complexity这三种技术的复杂性是相同的,O(n),只是常数因子不同。渐近复杂性很重要,因为它可以让您预测更大的输入需要多长时间。在这种情况下,如果我们想知道原始测试用例需要多长时间,我们可以将这三行扩展到 x 轴上的一百万。使用不同的大 O,我们会看到曲线,我们需要以不同的方式推断它们。
我们还可以看到 sum() 的曲线有一个弯曲,这在线性图上是完全看不见的;这意味着在实现中可能会有一些特殊的短列表。而且更清楚的是,reduce
的性能与 2 中手写的 for
循环非常接近,但不是 3; reduce
不再是3中的内置函数,但它仍然在编译代码中实现,所以我对此没有解释。我们可以看到 PyPy 在开始时以一种不可预测的方式显着慢:这是因为被基准测试函数的即时编译成本已归因于早期调用。我可以在基准测试中添加一个“热身”步骤并让它消失,但了解它是一件好事。
另一方面,CPython 3 明显比 CPython 2 慢的事实在对数-对数图中更难看出。
关于python:总和的速度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40708668/
我在想出一个算法时遇到了麻烦... 我有一系列 GPS 数据,以 1 秒为间隔记录时间、速度、距离。假设距离是米,速度是米/秒。可能有超过 2 小时的数据,或 7200 个点。这里的“时间”字段主要是
使用java排序器,即: Collections.sort(myArrayList, new Comparator() { @Override public int c
有什么区别吗 SELECT * FROM my_table 和 SELECT my_column_id FROM my_table 地点: my_table 有百万行 网站上有大量并发用户进行sql查
有2个样本。 在第一个示例中,使用 orderby 可以更快地获得结果。 (根据 phpmyadmin 速度报告) 在另一个例子中,我没有使用 order by,它给出的结果较慢。 (根据 phpmy
我注意到,如果我将训练数据加载到内存中并将其作为 numpy 数组提供到图中,与使用相同大小的 shuffle 批次相比,速度会有很大差异,我的数据有大约 1000 个实例。 使用内存 1000 次迭
我在 python 中使用破折号。我正在绘制记录到 SQLite 数据库中的实时数据,目前,我正在绘制单个值与时间线图。我计划再添加 20 个图表,但目前,随着时间的增加, plotly 变慢,我认为
我试图调用 hasNext Velocity 模板中的方法,以便根据 foreach 循环中的位置影响行为 - 仅 hasNext没有按照文档工作。 这是 Velocity 用户指南的片段,关于 ha
在我正在制作的游戏中,我有两个点,pt1 和 pt2,我想计算出它们之间的角度。我已经在较早的计算中计算出距离。显而易见的方法是对垂直距离上的水平距离进行反正切 (tan(theta) = opp/a
我经常遇到字符串值不存在和/或为空的情况。这是测试这种情况的最佳方法吗? #if( $incentive.disclaimer && $!incentive.disclaimer != '' )
我想将一个模板nested包含在其他模板cont1,cont2和cont3中。 并且嵌套模板应仅对cont1隐藏一个特定控件。 在包含在cont1中之前,我想为一些标志变量$hideMyControl
是否可以更改从“Windows Azure Media Encoder”输出的音频的播放速度? 我正在使用配置为“WMA High Quality Audio”的“Windows Azure Medi
我使用速度将String(template)与字段合并 hi there I'am ${name}, And I'am ${age} old. velocity将字段${name}和${age}与一种
我使用的是 LockedBitmap 类,它简化了 C# 中位图数据的处理。目前它正在将数据复制到本地 byte[] 数组中,然后通过其类方法访问该数组以获取/设置像素颜色值。 这比直接通过指针访问锁
我尝试在 VM_global_library.vm 文件中添加一堆 #set($x=abc) 语句,但这些变量在我的 VM 模板中不可用。 我想为图像的基本路径等设置一个全局变量。这可能吗? 最佳答案
我的项目结构: -src --main ---java ----makers -----SomeClass ---resources ----htmlPattern.vm 如何告诉 SomeClass
我正在尝试从 Velocity 中的字符串中删除不需要的字符(换行符可以,但不能像 EM 和 CAN ASCII 控制字符那样)。 #set($cleanScreen = $cleanScreen.r
我想在日.月.年之间的点处分割日期。例如:2015 年 1 月 14 日至 {14, 01, 2015}这是我使用的代码:dates3.get(0) 包含我从页面的文本字段获取的字符串“14.01.2
之后,从 1.5 升级到速度引擎 1.7 出现了 1.5 没有的问题。为了解释这个问题,我必须展示一个代码片段: #foreach($someVariable in $someCollection)
我想知道从表中选择所有字段是否更快: SELECT * 或只选择您真正需要的: SELECT field1, field2, field3, field4, field5... 假设表有大约 10 个
我正在尝试模仿照片应用程序的行为,在该应用程序中,用户用手指平移照片并且照片具有一定的速度。由于我不会深入的原因,我不能将 UIScrollView 与它的缩放 UIImageView 一起使用,而是
我是一名优秀的程序员,十分优秀!