gpt4 book ai didi

python - 读取 Pandas 中的制表符分隔文件并出现意外换行

转载 作者:行者123 更新时间:2023-12-01 03:54:08 24 4
gpt4 key购买 nike

我正在尝试读取此处找到的文件的未压缩版本: http://ftp.ncbi.nlm.nih.gov/pub/clinvar/tab_delimited/variant_summary.txt.gz

我正在使用 Pandas 和 read_table 函数;但是,某些行在选项卡之前包含文本 OMIM:,这似乎会导致意外的换行。在 OMIM: 之后包含字符串的行似乎没有此问题。

我认为 : 导致它以某种方式出现,但不确定如何解决它以正确读取该行的其余部分。它还会搞砸导入 Excel,所以我确信这与文本有关。

使用Python3和最新版本的Pandas。

最佳答案

您的 CSV 文件包含 NULL 字节(即 b'\x00')。尽管该文件有点大(100+MB),但它(可能)足够小,可以完全读入内存。因此,一个快速修复方法是删除 NULL 字节:

with open('variant_summary.txt', 'rb') as f, open('variant_summary-fixed.txt', 'wb') as g:
content = f.read()
content = content.replace(b'\x00', b'')
g.write(content)

(如果文件太大而无法轻松放入内存,您将不得不读取并分块写入文件——不是很困难,但代码更多。)

一旦获得数据文件的固定版本,variant_summary-fixed.txt,您就可以
像平常一样将其加载到 pandas 中:

df = pd.read_table('variant_summary-fixed.txt', delimiter='\t') 

关于python - 读取 Pandas 中的制表符分隔文件并出现意外换行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37797869/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com