python - Pandas corr和corrwith非常慢-6ren

python - Pandas corr和corrwith非常慢

转载作者：行者123 更新时间：2023-12-04 21:27:39

27

4

我有一个<3万行，7列的pandas数据框，我正在尝试使4列与第五列的相关性。问题是，我想对海量数据集执行此操作，但是这需要40秒钟才能运行。这是我的代码:

df_a = dfr[['id', 'state', 'perform', 'A']].groupby(['id', 'state']).corr().ix[1::2][['A']].reset_index(2).drop('level_2', axis=1)
df_b = dfr[['id', 'state', 'perform', 'B']].groupby(['id', 'state']).corr().ix[1::2][['B']].reset_index(2).drop('level_2', axis=1)
df_c = dfr[['id', 'state', 'perform', 'C']].groupby(['id', 'state']).corr().ix[1::2][['C']].reset_index(2).drop('level_2', axis=1)
df_d = dfr[['id', 'state', 'perform', 'D']].groupby(['id', 'state']).corr().ix[1::2][['D']].reset_index(2).drop('level_2', axis=1)

df = df_a.merge(df_b, left_index=True, right_index=True)
df = df.merge(df_c, left_index=True, right_index=True)
df = df.merge(df_d, left_index=True, right_index=True)

样本数据如下所示:

ID   State   perform   A   B   C   D
234   AK     75.8456   1   0   0   0
284   MN     78.6752   0   0   1   0

有人对我如何使它更快或更有效地实现此方法有任何提示吗？

谢谢!

最佳答案

pandas corr的非常慢的原因是它考虑了NAN:它基本上是一个cython for循环。

如果您的数据没有NAN，则numpy.corrcoef会快得多。

关于python - Pandas corr和corrwith非常慢，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48270953/

27

4

0

文章推荐： java - 在单元测试中比较 ArrayList

文章推荐： java - 更改代码后如何运行和部署 Spring Boot 应用程序

文章推荐： Java正则表达式用空格替换两侧带有空格的单个字母

python - pandas.DataFrame corrwith() 方法
我最近开始使用 pandas。谁能解释一下函数 .corrwith() 与 Series 和 DataFrame 的行为差异？假设我有一个DataFrame: frame = pd.DataFram
python - Pandas corr() 与 corrwith()
Pandas 提供两种不同关联函数的原因是什么？ DataFrame.corrwith(other, axis=0, drop=False): Correlation between rows or
python - Spearman 与 corrwith python 的相关性
我正在使用下面的代码关联两个数据框。基本上，从一个数据框 (a) 中选择一组列，从另一个数据框 (b) 中选择一列。它工作得很好，除了我需要用长矛手的选项来做。我将不胜感激任何意见或想法。谢谢...
python - pd.corrwith 在具有不同列名的 Pandas 数据帧上
我想以高效的方式在 x1 和 y 中的三列中的每一列之间获取 pearson r。 pd.corrwith() 似乎只能针对具有完全相同列标签的列进行计算，例如x 和 y。这似乎有点不切实际，因为我

首页

博学

6Ren·AI

商城

python - Pandas corr和corrwith非常慢