gpt4 book ai didi

python - 在 Pandas 数据框中进行行相关的正确方法

转载 作者:太空宇宙 更新时间:2023-11-03 11:02:05 25 4
gpt4 key购买 nike

我想计算 Pandas DataFrame 两行之间的相关性。当所有条目都是数字类型时,很容易计算两行之间的相关性,如下所示:

import pandas as pd
import numpy as np
example_df = pd.DataFrame(np.random.randn(10, 30), np.arange(10))
example_df.iloc[1, :].corr(example_df.iloc[2, :])

但如果 DataFrame 是混合类型,即使只选择数字条目的子集,计算相关性时也会出错:

example_df['Letter'] = 'A'
example_df.iloc[1, :-1].corr(example_df.iloc[2, :-1])

AttributeError: 'numpy.float64' 对象没有属性 'sqrt'

Pearson 的相关函数使用平方根函数,但对象类型不存在该函数,因此无法进行相关。您必须手动将类型更改为 float,然后才能计算相关性。

example_df.iloc[1, :-1].astype('float64').corr(example_df.iloc[2, :-1].astype('float64'))

有更好的方法吗?

最佳答案

我不知道这些是否比你做的更好,但这里有一个 numpy 的方法:

np.corrcoef(df_example.iloc[1:3, :-1])

array([[ 1. , -0.37194563],
[-0.37194563, 1. ]])

这里有一种使用 pandas 的方法:

df_example.iloc[1:3, :-1].T.corr()

1 2
1 1.000000 -0.371946
2 -0.371946 1.000000

如果你想比较不连续的行,像这样调整iloc:

df_example.iloc[[1, 4], :-1].T.corr()

关于python - 在 Pandas 数据框中进行行相关的正确方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30282596/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com