gpt4 book ai didi

python - 解析 GWAS 挖掘的 MEDLINE 文件

转载 作者:太空宇宙 更新时间:2023-11-04 01:15:52 25 4
gpt4 key购买 nike

我正在尝试将 MedLine 文件解析为 0,1 表以执行一些统计下游分析:PCA、GWAS 等。我使用名为 Bio.Medline 的 Python 模块对其进行格式化。一些额外的 shell 命令。现在,我不知道如何继续。

我需要将 文件 1 - 一个每行一张纸和制表符分隔关键字的键值文件 - 转换为一个包含折叠关键字和关键字存在/不存在的文件,显示为 1 或0 个值。

我想用 Perl 来做这件事,但欢迎使用其他解决方案。

谢谢,伯纳多

文件 1:

19801464    Animals Biodiversity    Computational Biology/methods   DNA
19696045 Environmental Microbiology Computational Biology/methods Software

期望的输出:

    Animals Biodiversity    Computational Biology/methods   DNA Environmental Microbiology  Software
19801464 1 1 1 0 0
19696045 0 1 0 1 1

最佳答案

您可以使用 Python 和 Pandas 执行此操作:

In [1]: df = pd.read_table("file", header=None, sep="\t", names=["A", "B","C","D"], index_col=0)
In [2]: df
Out[2]:
A B C \
0 19801464 Animals Biodiversity Computational Biology/methods
1 19696045 Environmental Microbiology Computational Biology/methods

D
0 DNA
1 Software

In [3]: b = pd.get_dummies(df.B)

In [4]: c = pd.get_dummies(df.C)

In [5]: d = pd.get_dummies(df.D)

In [6]: presence_absence = b.merge(c, right_index=True, left_index=True).merge(d,right_index=True, left_index=True)

In [7]: presence_absence
Out[7]:
Animals Biodiversity Environmental Microbiology \
A
19801464 1 0
19696045 0 1

Computational Biology/methods DNA Software
A
19801464 1 1 0
19696045 1 0 1

希望对你有帮助

关于python - 解析 GWAS 挖掘的 MEDLINE 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24770909/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com