gpt4 book ai didi

列数据中的python pandas read_csv定界符

转载 作者:太空狗 更新时间:2023-10-29 21:36:59 29 4
gpt4 key购买 nike

我有这种类型的 CSV 文件:

12012;My Name is Mike. What is your's?;3;0 
1522;In my opinion: It's cool; or at least not bad;4;0
21427;Hello. I like this feature!;5;1

我想将此数据放入 da pandas.DataFrame 中。但是 read_csv(sep=";") 由于第 2 行中用户生成的消息列中的分号而引发异常(在我看来:这很酷;或者至少还不错)。所有剩余的列始终具有数字数据类型。

管理这个最方便的方法是什么?

最佳答案

处理不带引号的定界符总是一件麻烦事。在这种情况下,由于已知损坏的文本被三个正确编码的列包围,我们可以恢复。 TBH,我只使用标准的 Python 阅读器并从中构建一个 DataFrame:

import csv
import pandas as pd

with open("semi.dat", "r", newline="") as fp:
reader = csv.reader(fp, delimiter=";")
rows = [x[:1] + [';'.join(x[1:-2])] + x[-2:] for x in reader]
df = pd.DataFrame(rows)

产生

       0                                              1  2  3
0 12012 My Name is Mike. What is your's? 3 0
1 1522 In my opinion: It's cool; or at least not bad 4 0
2 21427 Hello. I like this feature! 5 1

然后我们可以立即保存它并得到正确引用的内容:

In [67]: df.to_csv("fixedsemi.dat", sep=";", header=None, index=False)

In [68]: more fixedsemi.dat
12012;My Name is Mike. What is your's?;3;0
1522;"In my opinion: It's cool; or at least not bad";4;0
21427;Hello. I like this feature!;5;1

In [69]: df2 = pd.read_csv("fixedsemi.dat", sep=";", header=None)

In [70]: df2
Out[70]:
0 1 2 3
0 12012 My Name is Mike. What is your's? 3 0
1 1522 In my opinion: It's cool; or at least not bad 4 0
2 21427 Hello. I like this feature! 5 1

关于列数据中的python pandas read_csv定界符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30898935/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com