gpt4 book ai didi

python - 在 Python 3 中使用 Pandas 解析 CSV 文件

转载 作者:行者123 更新时间:2023-12-01 02:27:18 25 4
gpt4 key购买 nike

我正在尝试使用 Python 3 解析电影数据库。如何用不同的变量解析电影的类型?例如:

1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
2,Jumanji (1995),Adventure|Children|Fantasy

第一个值是 movie_id,第二个值是 movie_name,第三个值是流派,但我想将它们解析为属于相应电影的单独变量。换句话说,我希望数据库的第二个分隔符为“|”。我怎样才能实现这个目标?这是我的代码:

import numpy as np
import pandas as pd
header = ["movie_id", "title", "genres"]
movie_db = pd.read_csv("movielens/movies.csv", sep=",", names=header)

最佳答案

您可以使用分隔符,|,但第一行必须包含所有可能的流派:

df = pd.read_csv("movielens/movies.csv", sep="[,|]", header=None, engine='python')
print (df)
0 1 2 3 4 5 6
0 1 Toy Story (1995) Adventure Animation Children Comedy Fantasy
1 2 Jumanji (1995) Adventure Children Fantasy None None

但是这里最好按类别创建新列,如果 get_dummies 行中存在类别,则设置为 1并通过 join 添加到原始列:

movie_db = pd.read_csv("movielens/movies.csv", sep=",", names=header)
df =  movie_db.join(movie_db.pop('genres').str.get_dummies())
print (df)
movie_id title Adventure Animation Children Comedy Fantasy
0 1 Toy Story (1995) 1 1 1 1 1
1 2 Jumanji (1995) 1 0 1 0 1

但是如果可以需要列,请使用 split通过|:

df = movie_db.join(movie_db.pop('genres').str.split('|', expand=True))
print (df)
movie_id title 0 1 2 3 4
0 1 Toy Story (1995) Adventure Animation Children Comedy Fantasy
1 2 Jumanji (1995) Adventure Children Fantasy None None

关于python - 在 Python 3 中使用 Pandas 解析 CSV 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47248727/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com