gpt4 book ai didi

python - Pandas df.to_records() 返回一维 numpy 数组

转载 作者:行者123 更新时间:2023-12-01 04:44:17 25 4
gpt4 key购买 nike

如果这个问题看起来有点天真,我提前道歉。我仍在学习 pandas 和 numpy 之间的相互作用。

我有一个 pandas DataFrame,我正在尝试将其转换为数组以使用 scikit-learn 进行分析。我尝试过 df.values 和 df.to_records() 来转换它,但由于某种原因,它在转换过程中改变了形状。

这是 Pandas 中 DataFrame ( df ) 的前几行。

Index           Code1    Code2       Code3
0 99285 5921 5921
1 99284 NaN 5921
2 99284 NaN 4660
3 99285 42789 42789
4 99284 92321 92321
5 99283 NaN 92321
...
[94 rows x 3 columns]

但是,如果我调用df.values ,我得到以下结果,据我了解,它不是一个数组,因为数组是元组列表。

[['99285' '5921' '5921']
['99284' nan '5921']
['99284' nan '4660']
['99285' '42789' '42789']
['99284' '92321' '92321']
['99283' nan '92321']
...

如果我打电话df.to_records() ,我得到以下结果,它是一个数组,但形状不正确,如下所示。

[(0, '99285', '5921', '5921') (1, '99284', nan, '5921')
(2, '99284', nan, '4660') (3, '99285', '42789', '42789')
(4, '99284', '92321', '92321') (5, '99283', nan, '92321')
...
>>>df.to_records().shape
(94,)

有人可以帮助我理解我需要做什么才能获得形状为 (94,3) 的数组吗? ?

重要提示:这些列都是字符串(并且需要保留为字符串),而不是整数,如果有帮助的话。

最佳答案

事实上,df.values确实返回 numpy.ndarray 。然而,由于它的打印方式,它看起来像一个列表的列表。通过执行type(df.values)进行检查或者通过查看其形状 df.values.shape == (93, 4) .

但是,df.to_records()不返回numpy.ndarray ,但是 numpy.core.records.recarray 。你可以看到这是一个重新排列

type(df.to_records())

或者注意到数据类型看起来很奇怪:

df.to_records().dtype

df.to_records()的形状仅指示有多少条记录,在您的情况下为 94。记录数组的行为与普通 numpy 数组不同。例如,尝试

df.to_records()['Code1']
df.to_records().code1

关于python - Pandas df.to_records() 返回一维 numpy 数组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29832819/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com