gpt4 book ai didi

python - 使用 pandas 将 CSV 列读取为分类变量

转载 作者:行者123 更新时间:2023-11-30 22:23:19 24 4
gpt4 key购买 nike

pandas 可以识别数据框中的哪些列是分类的,而无需我们在读取 csv 文件时显式指定列。类似于 R 中的 StringAsFactor。我尝试搜索,但得到的结果是我们将列创建为分类,或者指定在读取文件时将哪一列视为分类。我需要 Pandas 来识别。任何帮助将非常感激。预先感谢!

最佳答案

是的。您可以在使用 read_* 加载列时指定哪些列属于分类类型。例如,考虑一个示例 CSV -

Col
a
b
c
a
b
b
c

现在,使用 read_csv 读取此内容,指定 dtype 参数 -

df = pd.read_csv('file.csv', dtype={'Col' : 'category'})

df['Col']

0 a
1 b
2 c
3 a
4 b
5 b
6 c
Name: Col, dtype: category
Categories (3, object): [a, b, c]
<小时/>

如果您有未知数量的分类列,您可以读入它们,然后将它们一一转换 -

df = pd.read_csv('file.csv')

for c in df.columns[df.dtypes == object]: # df.dtypes == 'object'
df[c] = df[c].astype('category')

关于python - 使用 pandas 将 CSV 列读取为分类变量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48077401/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com