gpt4 book ai didi

python - python 中的基本数据格式化

转载 作者:行者123 更新时间:2023-12-01 05:10:46 24 4
gpt4 key购买 nike

我想格式化一个包含 7000 个条目的文本文件,并使用以下代码对内容进行排序。但在过去的几周里,我遇到了一个问题:(输入数据如下)

USER_PROTEIN_ID = P25358

SMART_PROTEIN_ID = uniprot|P25358|ELO2_YEAST

NUMBER_OF_FEATURES_FOUND=8

DOMAIN=Pfam:ELO

开始=63

END=307

评估=2.4e-64

类型=PFAM

代码.py

file=open('r.txt').readlines()

for line in file:
line= line.rstrip()
if re.search('USER|DOMAIN|STATUS=visible|OK', line):
line= re.sub(r'USER_PROTEIN_ID = |DOMAIN=Pfam:|\s','', line)
print(''.join(line))

我得到的是:

P53242
Vac_ImportDeg
STATUS=visible|OK
P40850
DOMAIN=XPGN
STATUS=visible|OK
XPG_N
DOMAIN=XPGI
STATUS=visible|OK
XPG_I
MKT1_N
STATUS=visible|OK
MKT1_C
STATUS=visible|OK

但我想打印以 sep=\t 中的早期行开始的结果(例如 P5​​3242),形状如下:

P53242 Vac_ImportDeg STATUS=visible|OK

P40850 DOMAIN=XPGN STATUS=visible|OK XPG_N DOMAIN=XPGI STATUS=visible|OK XPG_I MKT1_N

最佳答案

没有内容文件。

用途:

print re.sub(r'(P\d+)',r'\n\1 ',re.sub(r'\n','',line))

而不是:

print(''.join(line))

关于python - python 中的基本数据格式化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24286002/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com