gpt4 book ai didi

python-3.x - pandas.errors.ParserError : ',' expected after '"'

转载 作者:行者123 更新时间:2023-12-03 22:53:27 26 4
gpt4 key购买 nike

我正在尝试从 Kaggle 读取此数据集:Amazon sales rank data for print and kindle books

文件 amazon_com_extras.csv有一个名为“Title”的列,有时包含逗号 ',',因此此 .csv 中的所有字段都用引号括起来:

"ASIN","GROUP","FORMAT","TITLE","AUTHOR","PUBLISHER"
"022640014X","book","hardcover","The Diversity Bargain: And Other Dilemmas of Race, Admissions, and Meritocracy at Elite Universities","Natasha K. Warikoo","University Of Chicago Press"

我已经阅读了与此问题相关的其他问题,但没有一个能解决它。例如,我试过:
df = pd.read_csv("amazon_com_extras.csv",engine="python",sep=',')
df = pd.read_csv("amazon_com_extras.csv",engine="python",sep=',',quotechar='"')

但似乎没有任何效果。
我正在使用 Python 3.7.2 和 Pandas 0.24.1。

最佳答案

这发生在您身上,因为文档中的某些字段在引用文本中包含未转义的引号。

我不知道有什么方法可以指示 csv 解析器在没有预处理的情况下处理它。

如果你不关心那些列,你可以使用

pd.read_csv("amazon_com_extras.csv", engine="python", sep=',', quotechar='"', error_bad_lines=False)

这将禁止引发异常,但它会删除受影响的行(您将在控制台中看到)。

这样一行的一个例子:
"1405246510","book","hardcover",""Hannah Montana" Annual 2010","Unknown","Egmont Books Ltd"

注意引号。

相反,更标准的 csv 方言会呈现:
1405246510,"book","hardcover","""Hannah Montana"" Annual 2010","Unknown","Egmont Books Ltd"

例如,您可以使用 Libreoffice 加载文件,然后再次将其重新保存为 CSV,以获得有效的 CSV 方言或使用其他预处理技术。

关于python-3.x - pandas.errors.ParserError : ',' expected after '"',我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55010807/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com