gpt4 book ai didi

python - pandas read_csv 修复列以读取数据中带有换行符的数据

转载 作者:太空宇宙 更新时间:2023-11-03 14:51:27 25 4
gpt4 key购买 nike

使用 pandas 读取大制表符分隔文件

df = pd.read_csv(file_path, sep='\t', encoding='latin 1', dtype = str, keep_default_na=False, na_values='')

问题是有 200 列,第 3 列是偶尔带有换行符的文本。文本没有用任何特殊字符分隔。这些行被分成多行,数据进入错误的列。

每行中有固定数量的选项卡 - 这就是我必须继续的全部内容。

最佳答案

这个想法是使用正则表达式来查找由给定数量的制表符分隔并以换行符结尾的东西的所有实例。然后采用所有这些并创建一个数据框。

import pandas as pd
import re

def wonky_parser(fn):
txt = open(fn).read()
# This is where I specified 8 tabs
# V
preparse = re.findall('(([^\t]*\t[^\t]*){8}(\n|\Z))', txt)
parsed = [t[0].split('\t') for t in preparse]
return pd.DataFrame(parsed)

将文件名传递给该函数并取回您的数据框。

关于python - pandas read_csv 修复列以读取数据中带有换行符的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45453093/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com