python - 为什么 groupby.diff 这么慢？-6ren

python - 为什么 groupby.diff 这么慢？

转载作者：太空宇宙更新时间：2023-11-03 21:37:28

24

4

我想计算每个组的系列差异，如下例所示:

In [24]: rnd_ser = pd.Series(np.random.randn(5000))
    ...: com_ser = pd.concat([rnd_ser] * 500, keys=np.arange(500), names=['Date', 'ID'])

In [25]: d1 = com_ser.groupby("Date").diff()

In [26]: d2 = com_ser - com_ser.groupby("Date").shift()

In [27]: np.allclose(d1.fillna(0), d2.fillna(0))
Out[27]: True

有两种方法可以解决这个问题，但是第一种方法性能较差:

In [30]: %timeit d1 = com_ser.groupby("Date").diff()
616 ms ± 5.62 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [31]: %timeit d2 = com_ser - com_ser.groupby("Date").shift()
95 ms ± 326 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

这是预期的还是错误？

我的环境的详细信息:

In [23]: pd.show_versions()

INSTALLED VERSIONS
------------------
commit: None
python: 3.7.1.final.0
python-bits: 64
OS: Windows
OS-release: 10
machine: AMD64
processor: Intel64 Family 6 Model 158 Stepping 10, GenuineIntel
byteorder: little
LC_ALL: None
LANG: None
LOCALE: None.None

pandas: 0.23.4
pytest: 3.9.3
pip: 18.1
setuptools: 40.5.0
Cython: 0.29
numpy: 1.15.3
scipy: 1.1.0
pyarrow: None
xarray: None
IPython: 7.1.1
sphinx: 1.8.1
patsy: 0.5.1
dateutil: 2.7.5
pytz: 2018.7
blosc: None
bottleneck: 1.2.1
tables: 3.4.4
numexpr: 2.6.8
feather: None
matplotlib: 3.0.1
openpyxl: 2.5.9
xlrd: 1.1.0
xlwt: 1.3.0
xlsxwriter: 1.1.2
lxml: 4.2.5
bs4: 4.6.3
html5lib: 1.0.1
sqlalchemy: 1.2.12
pymysql: None
psycopg2: None
jinja2: 2.10
s3fs: None
fastparquet: None
pandas_gbq: None
pandas_datareader: None

最佳答案

FWIW，我在我的机器上看到类似的数字

%timeit d1 = com_ser.groupby("Date").diff()
523 ms ± 32.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit d2 = com_ser - com_ser.groupby("Date").shift()
80.8 ms ± 2.31 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

Pandas 的 diff() 实现对于 groupby() 来说似乎很慢

例如，如果我制作一个大系列

big_ser = pd.Series(np.random.randn(int(1e7)))

然后将移位和减法与 Series.diff()

进行比较

%timeit big_ser - big_ser.shift()
46.3 ms ± 789 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

%timeit big_ser.diff()
41.6 ms ± 488 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

那么实现之间的时间是相同的。接下来，当您查看 Series.diff 的内部源代码时，它在注释中明确指出

def diff(arr, n, axis=0):
    """
    difference of n between self,
    analogous to s-s.shift(n)

所以我认为它必须是特定于 diff() 的 groupby 中的一些开销

关于python - 为什么 groupby.diff 这么慢？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53150700/

24

4

0

文章推荐： python - 使用 Gmail API 发送回复到电子邮件线程

文章推荐： c# - 如何将 ipv6 地址解析为 "octets"？

文章推荐： c# - 查询时防止丢失 [MEMNO] 值中的前导零？

Mysql 多个用户使用 diff diff SQL_CALC_FOUND_ROWS 导致 diff diff 总行数
我在我们的系统中使用了多种不同的查询，我们想要获取分页的“总”记录。我所遵循的所有地方都遵循这种结构 - var query1 = "select SQL_CALC_FOUND_ROWS ...."
diff - 在希伯来语中使用 diff
我是 diff 的新手。我过去用过它。但我想知道，是否可以使用 diff 来跟踪希伯来语中两个文件之间的差异？我想比较具有元音点和重音符号的圣经希伯来文文件。最佳答案我不知道有任何“差异”(文件比
diff - Diff for Powerpoint
在Word中，有一个选项可以比较两个文档并找出两个文档之间的差异。我正在寻找一个类似的功能来比较两个Powerpoint文档。理想情况下，它将列出不同的单个幻灯片，每个幻灯片之间版本之间的差异以及进行
html - 使用 diff 查找许多文件的相同部分？ (bizzaro-diff，或 inverse-diff)
Bizzaro-Diff!!! 有没有办法做一个只显示一组文件中相同部分的 bizzaro/inverse-diff？ (即远超过 three files ) 奇怪的问题，我知道...但我正在将某人的
git - 无法使 git diff 使用 diff.external 作为外部 diff 工具
我将 git 与默认的 Ubuntu 12.04 软件包一起使用: git --version git version 1.7.9.5 我找不到任何可以让 git diff 打开外部差异工具的机制，它
diff - 使用 diff 并忽略空目录
这是我的树 ├── test │ ├── dir1 │ └── dir2 │ ├── file │ └── file2 └── test2 └── dir2
diff - 如何修补 .diff 文件？
我在 source forge ( cocoa.diff ) 上找到了这个补丁，这意味着我可以使用 cocoa.diff 文件进行补丁。但是，我似乎无法弄清楚如何使用 .diff 文件。谢谢你的帮助
diff - cvs diff 的输出格式
我修改了某个文件的第 494 行，并使用 cvs diff -u4 来查看我修改的内容，cvs 输出如下内容: @@ -490,9 +490,9 @@ if (!(hPtr->hSta
unix - diff'ing diffs with diff？
我需要知道这两个补丁是否有效相同。我有一个旧补丁文件和使用 unix diff 命令创建的新补丁文件。由于补丁创建时的时间戳，只是比较补丁会报告差异。有没有办法(有差异？)可以可靠地告诉我这两个补
diff - 使用 diff 的输出来创建补丁
我有这样的东西 src/sim/simulate.cc 41d40 public: > 61,62c60,61 a.patch 用于创建补丁文件，尽管也可能会抛出一些其他开关(-N？)
diff - 充分利用 *.diff 文件
我想知道是否有工具可以显示与 debian 打包相关的补丁中使用的 *.diff 文件。我需要从该工具中获得的是它可以只读取 diff 文件并显示随更改的行更改的实际文件，就像 kdiff 或 mel
git - "git diff"、 "git diff HEAD"和 "git diff --staged"的奇怪输出？
主要有3个git diff版本: git diff - difference between WORKING DIRECTORY & STAGE git diff --staged - differe
python - 为什么 pandas df.diff(2) 与 df.diff().diff() 不同？
根据 Ender 的 Applied Econometric Time Series ，变量 y 的二阶差分定义为: Pandas 提供了 diff 函数，它接收“periods”作为参数。尽管如此，
python - Git diff 提示， "external diff died, stopping at ... "与我的 python diff 程序
这是我的差异的开始部分。 #!/usr/bin/env python import fileinput import difflib import subprocess import sys # fo
diff - svn diff 空白/制表符仅更改
有没有办法在 svn diff 或任何其他工具(基于 linux)到仅显示空格/制表符更改 ?. 目的，我不希望 checkin 这些差异。如果工具可以捕获这些差异，我可以在 checkin 之前将
diff - AIX diff -b 坏了？
我正在尝试比较忽略回车符的文件 - diff -b 在任何其他 unix 上的表现令人钦佩。但是在这个 AIX 5.3 机器上: tst1:tst2$ od -c testfile 00000
diff - Git Diff header 上的数字有何含义？
这个问题已经有答案了: What does the “@@…@@” meta line with at signs in svn diff or git diff mean? (3 个回答) 已关闭
git diff --word-diff 与单行文件
我在使用 git diff --word-diff 时遇到了问题。问题是当 diff 获取没有换行符的文件(单行文件)时，它会逐行区分。我想逐字区分。以下是当我在没有换行符的情况下比较文件时发生的情
git diff 与组合 --word-diff
这个问题在这里已经有了答案: Highlight changed lines and changed bytes in each changed line (12 个答案) 关闭 7 年前。给定一
diff - 内存耗尽: for large files using diff
我正在尝试使用两个大文件夹(〜7GB)创建一个补丁。这是我的做法: $ diff -Naurbw . ../other-folder > file.patch 但可能由于文件大小而导致未创建补丁并给

首页

博学

6Ren·AI

商城

python - 为什么 groupby.diff 这么慢？