gpt4 book ai didi

python - 在Python中读取.tsv文件时忽略字符串

转载 作者:行者123 更新时间:2023-12-01 08:00:53 25 4
gpt4 key购买 nike

我正在尝试读取 .tsv 文件,但我注意到我的数据中有一个特定的字符串,导致以下错误:

ParserError: Expected 112 fields in line 112, saw 115

我跟踪了错误,发现在我的数据中存在 "\\t",当我尝试读取文件时,它认为它是由制表符分隔的...

我尝试了以下方法,但没有成功:

df = pd.read_csv('data.tsv.gz', header=None, sep='\t',
quoting=csv.QUOTE_NONE, compression='gzip', engine='python',
encoding='iso8859_1')

我还尝试过使用:sep='^\\t|\t'

示例数据:

There\tShould \\t Only\tbe\t6\tcolumns\t\t

数据帧中的输出应生成 6 列,其中包含字符串“\\t”:

|There|Should \\t Only|be|6|columns|NA|

最佳答案

您可以向 pd.read_csv() 添加一个名为 escapechar 的参数。将转义字符设置为'\'` 将解决您的问题。因此

df = pd.read_csv('data.tsv.gz', header=None, sep='\t', escapechar='\\',
quoting=csv.QUOTE_NONE, compression='gzip', engine='python',
encoding='iso8859_1')

确实有效,正如您在更新的问题中所示的那样。

关于python - 在Python中读取.tsv文件时忽略字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55737237/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com