python - 为什么多个 list.count 调用比单个循环更快？-6ren

python - 为什么多个 list.count 调用比单个循环更快？

转载作者：太空宇宙更新时间：2023-11-04 02:37:26

25

4

我有一个像这样生成的 2 元素 tuple 的 list:

import random

l = list(range(8)) * 7
random.shuffle(l)
l = list(zip(*[iter(l)] * 2))

l 的输出:

[(1, 3),
 (6, 6),
 (1, 0),
 (4, 6),
 (1, 5),
 (7, 5),
 (4, 0),
 (5, 4),
 (4, 7),
 (4, 4),
 (0, 6),
 (2, 0),
 (3, 2),
 (7, 7),
 (6, 0),
 (2, 5),
 (1, 5),
 (0, 1),
 (0, 4),
 (5, 3),
 (7, 2),
 (3, 3),
 (6, 3),
 (2, 6),
 (7, 7),
 (5, 2),
 (3, 1),
 (2, 1)]

我正在计算元组 e 及其反向出现的次数:

e = (1, 5)

首先，我正在使用 list.count，它应该有一个 O(2n)，因为该方法被调用了两次，因此列表被遍历了两次:

%timeit l.count(e) + l.count(e[::-1])
# 1.46 µs ± 11.8 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

然后我使用一个传统的 for 循环，它只用 O(n) 遍历列表一次:

%%timeit
c = 0
for t in l:
    if t in (e, e[::-1]):
        c += 1
# 5.57 µs ± 35.9 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

为什么第一个比第二个快 ~1.5-4，即使它遍历整个列表两次？

最佳答案

非常简单的答案是 count 是用纯 C 实现的，因此运行速度比 Python 循环快。然而，有很多微妙之处需要考虑。

首先，您没有以最有效的方式编写循环。每次执行表达式 t in (e, e[::-1]) 时，都会发生三件事:

e 元组与 e[::-1] 反转。请注意，这只需要发生一次——您可以存储结果并重新使用它。但是现在，它在循环中每次都会执行。
这两个元组存储在一个外部元组中。这也只需要发生一次，但同样，每次循环都会执行。
最后，检查外部元组中的每个项目是否与 t 相等。这确实必须在每次循环中发生，因为 t 的值每次都会改变。

这是我电脑上的速度测试结果:

In [6]: %%timeit
   ...: c = 0
   ...: for t in l:
   ...:     if t in (e, e[::-1]):
   ...:         c += 1
   ...: 
7.39 µs ± 43.1 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

为了简化这一点，您可以只创建一次外部元组。称它为 e_test:

e_test = (e, e[::-1])

然后事情就快多了:

In [8]: %%timeit
    ...: c = 0
    ...: for t in l:
    ...:     if t in e_test:
    ...:         c += 1
    ...: 
3.05 µs ± 62.9 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

我认为这可能是使用普通 Python for 循环实现此测试的最快方法。但是，基于count 的解决方案仍然更快!

In [9]: %timeit l.count(e) + l.count(e[::-1])
2.19 µs ± 62 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

我们可以通过再次预先计算反向元组来进一步改进:

In [10]: e_rev = e[::-1]

In [11]: %timeit l.count(e) + l.count(e_rev)
2.06 µs ± 62.6 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

在同一个循环中执行两个测试当然是有好处的。但与其他因素相比，好处实际上非常小。在这种情况下它甚至更小，因为 count 循环发生在 C 中，这极大地减少了额外 for 循环的成本。

在实践中，如果您要决定是在一个循环中执行多个操作还是执行多个循环，您应该选择最容易阅读和维护的内容，因为 99% 的时间，多个循环的开销将被大大超过通过在循环内部执行的操作的成本。

作为最后的说明，这里是我能找到的基于 count 的方法的最佳替代方法。它们都创建一个 set 而不是一个元组，这意味着 in 表达式在恒定时间内工作。我原以为在这里使用集合不会比使用元组更好，因为只有两个项目要测试。但事实证明性能确实更好，至少在我的机器上是这样:

In [32]: e_test_set = set(e_test)

In [33]: %timeit sum([1 for t in l if t in e_test_set])
2.34 µs ± 90.3 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

请注意，这使用了显式列表推导式，而不是将生成器表达式传递给 sum。如果你传递一个生成器表达式，它会慢大约十分之一微秒。这仍然比基于 count 的方法慢!

但是一旦您创建了一个列表，就会发现您根本不需要计算总和。一个列表的总和就是它的长度。

In [34]: %timeit len([1 for t in l if t in e_test_set])
2.07 µs ± 73.1 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

现在，我们终于有了一个可以与基于 count 的方法竞争的版本，至少在这个规模上是这样。对于更大的列表，我预计这会再次变慢，因为为列表分配内存会花费太多时间。

关于python - 为什么多个 list.count 调用比单个循环更快？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47556360/

25

4

0

文章推荐： c - 如何在c中拆分字符和数字

文章推荐： ios - pkyeck socket.IO-objc 未向 socket.io 服务器发送事件

文章推荐： html - 在 Grid Bootstrap 中大小相同？

文章推荐： c - Makefile C 命令行参数

Javascript AJAX 调用 Jquery 调用
为了让我的代码几乎完全用 Jquery 编写，我想用 Jquery 重写 AJAX 调用。这是从网页到 Tomcat servlet 的调用。我目前情况的类似代码: var http = new
Java 调用 C 调用 Java
我想使用 JNI 从 Java 调用 C 函数。在 C 函数中，我想创建一个 JVM 并调用一些 Java 对象。当我尝试创建 JVM 时，JNI_CreateJavaVM 返回 -1。所以，我想知
javascript - 调用 javascript 函数以从无法按预期工作的表单进行 AJAX 调用
环顾四周，我发现从 HTML 调用 Javascript 函数的最佳方法是将函数本身放在 HTML 中，而不是外部 Javascript 文件。所以我一直在网上四处寻找，找到了一些简短的教程，我可以根
ajax - 为什么我不能从 Angular 调用 ajax 调用
我有这个组件: import {Component} from 'angular2/core'; import {UserServices} from '../services/UserService
openssl - 如果客户端使用 BIO_* 调用，是否需要服务器上的 BIO_* 调用？
我正在尝试用 C 实现一个简单的 OpenSSL 客户端/服务器模型，并且对 BIO_* 调用的使用感到好奇，与原始 SSL_* 调用相比，它允许一些不错的功能。我对此比较陌生，所以我可能会完全错误
javascript - 根据先前的 Ajax 调用，根据用户确认执行 Ajax 调用
我正在处理有关异步调用的难题: 一个 JQuery 函数在用户点击时执行，然后调用一个 php 文件来检查用户输入是否与数据库中已有的信息重叠。如果是这样，则应提示用户确认是否要继续或取消，如果他单击
java - 验证私有(private)构造函数未使用 JMockit 调用/调用
我有以下类(class)。 public Task { public static Task getInstance(String taskName) { return new
c++ - 调用 QSound 调用，它们之间有延迟 Qt C++
嘿，我正在构建一个小游戏，我正在通过制作一个数字 vector 来创建关卡，该数字 vector 通过枚举与 1-4 种颜色相关联。问题是循环(在 Simon::loadChallenge 中)我将颜
Java 异步 api 调用 - 即发即忘 http 调用
我有一个java spring boot api(数据接收器)，客户端调用它来保存一些数据。一旦我完成了数据的持久化，我想进行另一个 api 调用(应该处理持久化的数据 - 数据聚合器)，它应该自行异
c# - 如何从 Paypal 调用 DoDirectPayment API 调用
首先，这涉及桌面应用程序而不是 ASP .Net 应用程序。我已经为我的项目添加了一个 Web 引用，并构建了各种数据对象，例如 PayerInfo、Address 和 CreditCard。但问题
f# - 如何从 FAKE 调用/调用 F# 编译器 fsc？
我如何告诉 FAKE 编译 .fs文件使用 fsc ? 解释如何传递参数的奖励积分，如 -a和 -target:dll . 编辑:我应该澄清一下，我正在尝试在没有 MSBuild/xbuild/.sl
javascript - render 没有被一个 api 调用，而是被另一个 api 调用
我使用下划线模板配置了一个简单的主干模型和 View 。两个单独的 API 使用完全相同的配置。 API 1 按预期工作。要重现该问题，请注释掉 API 1 的 URL，并取消注释 API 2 的
php - OOP 或 MySQL 调用。生成对象还是直接从 MySQL 调用？
我不确定什么是更好的做法或更现实的做法。我希望从头开始创建目录系统，但不确定最佳方法是什么。我想我在需要显示信息时使用对象，例如 info.php?id=100。有这样的代码用于显示 Game.cl
python - child 调用 parent ， parent 调用 child ......或不
from datetime import timedelta class A: def __abs__(self): return -self class B1(A):
java - 调用/调用 void 方法(Java 作业 - 生命游戏示例)
我在操作此生命游戏示例代码中的数组时遇到问题。情况: “生命游戏”是约翰·康威发明的一种细胞自动化技术。它由一个细胞网格组成，这些细胞可以根据数学规则生存/死亡/繁殖。该网格中的活细胞和死细胞通过
调用 read() 返回 0 但缓冲区已更改，调用 fread() 读取相同偏移量时不会发生
如果我像这样调用 read() 来读取文件: unsigned char buf[512]; memset(buf, 0, sizeof(unsigned char) * 512); int fd;
调用 "start"启动程序，调用 "stop"关闭 C 中的当前实例
我用 C 编写了一个简单的服务器，并希望调用它的功能与调用其他 C 守护程序的功能相同(例如使用 ./ftpd start 调用它并使用 ./ftpd stop 关闭该实例)。显然我遇到的问题是我不知
powershell - 可以从 cmd 调用 headless，但不能从 powershell 调用 headless
在 dos 中，当我粘贴此命令时它会起作用: "C:\Program Files (x86)\Google\Chrome\Application\chrome.exe" https://google.
powershell - 可以从 cmd 调用 headless，但不能从 powershell 调用 headless
在 dos 中，当我粘贴此命令时它会起作用: "C:\Program Files (x86)\Google\Chrome\Application\chrome.exe" https://google.
python - 调用 python3 显示错误，调用 python 启动 python2.7
我希望能够从 cmd 在我的 Windows 10 计算机上调用 python3。我已重新安装 Python3.7 以确保选择“添加到路径”选项，但仍无法调用 python3 并使 CMD 启动 P

首页

博学

6Ren·AI

商城

python - 为什么多个 list.count 调用比单个循环更快？