gpt4 book ai didi

python - 将 csv 导入 pandas 数据框时不读取所有行

转载 作者:行者123 更新时间:2023-11-30 08:26:35 25 4
gpt4 key购买 nike

我正在尝试 Kaggle 挑战 here ,不幸的是我陷入了一个非常基本的步骤。我正在尝试阅读 datasets通过执行以下命令进入 pandas 数据框:

test = pd.DataFrame.from_csv("C:/Name/DataMining/hillary/data/output/emails.csv")

问题是,您会发现这个文件有超过 300,000 条记录,但我只读取了 7945 条记录。

print (test.shape)
(7945, 21)

现在我已经仔细检查了该文件,但找不到有关第 7945 行的任何特殊信息。有任何指示说明为什么会发生这种情况吗?

最佳答案

我认为更好的是使用函数 read_csv使用参数 quoting=csv.QUOTE_NONEerror_bad_lines=Falselink

import pandas as pd
import csv

test = pd.read_csv("output/Emails.csv", quoting=csv.QUOTE_NONE, error_bad_lines=False)

print (test.shape)
#(381422, 22)

但是一些数据(有问题的)将被跳过。

如果您想跳过电子邮件正文数据,您可以使用:

import pandas as pd
import csv

test = pd.read_csv(
"output/Emails.csv",
quoting=csv.QUOTE_NONE,
sep=',',
error_bad_lines=False,
header=None,
names=[
"Id", "DocNumber", "MetadataSubject", "MetadataTo", "MetadataFrom",
"SenderPersonId", "MetadataDateSent", "MetadataDateReleased",
"MetadataPdfLink", "MetadataCaseNumber", "MetadataDocumentClass",
"ExtractedSubject", "ExtractedTo", "ExtractedFrom", "ExtractedCc",
"ExtractedDateSent", "ExtractedCaseNumber", "ExtractedDocNumber",
"ExtractedDateReleased", "ExtractedReleaseInPartOrFull",
"ExtractedBodyText", "RawText"])

print (test.shape)

#delete row with NaN in column MetadataFrom
test = test.dropna(subset=['MetadataFrom'])
#delete headers in data
test = test[test.MetadataFrom != 'MetadataFrom']

关于python - 将 csv 导入 pandas 数据框时不读取所有行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33161769/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com