作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个<3万行,7列的pandas数据框,我正在尝试使4列与第五列的相关性。问题是,我想对海量数据集执行此操作,但是这需要40秒钟才能运行。这是我的代码:
df_a = dfr[['id', 'state', 'perform', 'A']].groupby(['id', 'state']).corr().ix[1::2][['A']].reset_index(2).drop('level_2', axis=1)
df_b = dfr[['id', 'state', 'perform', 'B']].groupby(['id', 'state']).corr().ix[1::2][['B']].reset_index(2).drop('level_2', axis=1)
df_c = dfr[['id', 'state', 'perform', 'C']].groupby(['id', 'state']).corr().ix[1::2][['C']].reset_index(2).drop('level_2', axis=1)
df_d = dfr[['id', 'state', 'perform', 'D']].groupby(['id', 'state']).corr().ix[1::2][['D']].reset_index(2).drop('level_2', axis=1)
df = df_a.merge(df_b, left_index=True, right_index=True)
df = df.merge(df_c, left_index=True, right_index=True)
df = df.merge(df_d, left_index=True, right_index=True)
ID State perform A B C D
234 AK 75.8456 1 0 0 0
284 MN 78.6752 0 0 1 0
最佳答案
pandas corr的非常慢的原因是它考虑了NAN:它基本上是一个cython for循环。
如果您的数据没有NAN,则numpy.corrcoef会快得多。
关于python - Pandas corr和corrwith非常慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48270953/
我最近开始使用 pandas。谁能解释一下函数 .corrwith() 与 Series 和 DataFrame 的行为差异? 假设我有一个DataFrame: frame = pd.DataFram
Pandas 提供两种不同关联函数的原因是什么? DataFrame.corrwith(other, axis=0, drop=False): Correlation between rows or
我正在使用下面的代码关联两个数据框。基本上,从一个数据框 (a) 中选择一组列,从另一个数据框 (b) 中选择一列。它工作得很好,除了我需要用长矛手的选项来做。我将不胜感激任何意见或想法。谢谢...
我想以高效的方式在 x1 和 y 中的三列中的每一列之间获取 pearson r。 pd.corrwith() 似乎只能针对具有完全相同列标签的列进行计算,例如x 和 y。 这似乎有点不切实际,因为我
我是一名优秀的程序员,十分优秀!