gpt4 book ai didi

python - 读取跨书数据集时出现 CParserError : Error tokenizing data.

转载 作者:行者123 更新时间:2023-12-01 02:31:26 26 4
gpt4 key购买 nike

我想阅读book-crossing dataset表:BX-Books。使用 Pandas 。当我写下:

  #load book informations dataset
books = pd.read_csv("BX-CSV-Dump/BX-Books.csv",sep=';')

我收到错误:

CParserError: Error tokenizing data. C error: Expected 8 fields in line 6452, saw 9

如何纠正这个问题?我尝试使用“\t”作为分隔符,但它也不起作用,在这种情况下,我将一列中的所有列用“;”分隔。

最佳答案

问题是由以下字符串引起的:

"Peterman Rides Again: Adventures Continue with the Real \"J. Peterman\" Through Life & the Catalog Business"

注意:注意 &,其中包含 ;\"J. Peterman\",包含引号字符

所以试试这个:

In [34]: df = pd.read_csv(fn, sep=';', escapechar='\\', encoding='CP1252', 
low_memory=False)

In [35]: df.shape
Out[35]: (271379, 8)

关于python - 读取跨书数据集时出现 CParserError : Error tokenizing data.,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46778899/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com