gpt4 book ai didi

python - 高效查询pandas数据集

转载 作者:行者123 更新时间:2023-11-28 21:46:22 25 4
gpt4 key购买 nike

给定一个 pandas 数据集包含 800 万行和 20 列。

程序查询数据集以找到特定列的平均值。

基于其他列选择的平均值

需要帮助以快速响应 10k 查询包并减少查询执行时间

设置:

import pandas as pd
from random import randint


df = pd.DataFrame({'A': ['A1','A2','A3','A4','A5','A2','A2','A1','A4','A4'],
'B': ['BA1','BA2','BA3','BA4','BA5','BA2','BA2','BA1','BA4','BA4'],
'C': ['CA1','CA2','CA3','CA4','CA5','CA2','CA2','CA1','CA4','CA4'],
'D': ['D1','D2','D3','D4','D5','D2','D2','D1','D4','D4'],
'important_col': [randint(1, 9)*100 for x in xrange(10)]})

数据集示例:

        A    B       C      D   important_col
0 A1 BA1 CA1 D1 400
1 A2 BA2 CA2 D2 500
2 A3 BA3 CA3 D3 100
3 A4 BA4 CA4 D4 100
4 A5 BA5 CA5 D5 400
5 A2 BA2 CA2 D2 900
6 A2 BA2 CA2 D2 100
7 A1 BA1 CA1 D1 300
8 A4 BA4 CA4 D4 800
9 A4 BA4 CA4 D4 100

查询示例:

df[(df['A']== 'A1')]['important_col'].mean()
df[(df['A']== 'A2') & (df['B'] == 'BA2')]['important_col'].mean()
df[(df['A']== 'A4') & (df['C'] == 'CA4') & (df['D'] == 'D4')]['important_col'].mean()

索引是否有助于解决问题?和 .loc.ix 可以使用吗?或任何其他解决方案?

最佳答案

列 A 到 D 可以转换为类别,因为值不唯一且有限。

以下示例基于您在 OP 中提供的 df。

# Original data frame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
A 10 non-null object
B 10 non-null object
C 10 non-null object
D 10 non-null object
important_col 10 non-null int64
dtypes: int64(1), object(4)
memory usage: 480.0+ bytes

# Convert to category
df['A'] = df.A.astype('category')
df['B'] = df.B.astype('category')
df['C'] = df.C.astype('category')
df['D'] = df.D.astype('category')

# Modified data frame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
A 10 non-null category
B 10 non-null category
C 10 non-null category
D 10 non-null category
important_col 10 non-null int64
dtypes: category(4), int64(1)
memory usage: 360.0 bytes

您应该看到内存使用的好处(值被整数替换并使用小型查找表映射)以及选择时的速度(基于整数值的查找将比使用字符串值的相同查找更快) .

更新

我创建了一个 Jupyter notebook显示简单地将列转换为类别的改进。

使用 1.000.000 行的示例(与 OP 定义的结构相同)和 OP 中提供的示例查询,随着大小从 232.7 MB 下降到 11.4,内存使用情况有所改善 MB(减少 95%)。

此外,示例查询还显示了速度优势:

  • 查询 1:提高 83%(57 毫秒 > 9.36 毫秒)
  • 查询 2:91% 的改进(80.9 毫秒 > 6.97 毫秒)
  • 查询 3:92% 的改进(119 毫秒 > 9.37)

我用一个 8 mio 的样本做了同样的测试,得到了同样数量的速度和资源使用改进。

关于python - 高效查询pandas数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38079887/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com