gpt4 book ai didi

Python - 在 DataFrame 中搜索模式,后跟多个可能的字符串

转载 作者:行者123 更新时间:2023-12-01 08:13:10 24 4
gpt4 key购买 nike

我有一个数据框,其中一列有一长串以分号分隔的字符串:

gene_id ENSGACG00000019161; gene_version 1; transcript_id ENSGACT00000025386; transcript_version 1; exon_number 9; gene_name slc7a8a; gene_source ensembl; gene_biotype protein_coding; transcript_name slc7a8a-203; transcript_source ensembl; transcript_biotype protein_coding; exon_id ENSGACE00000225405; exon_version 1;

我想以某种方式逐行取出gene_name后面和分号之前的字符串。所以在这种情况下slc7a8a。如果这是一个简单的问题或重复的问题,我很抱歉。我尝试过查看多种资源,但甚至不知道描述我想要做的事情的最简洁的方式,很难找到任何有用的东西。

谢谢

最佳答案

您可以使用 pandas str.extract它采用正则表达式模式作为输入参数:

df['col_name'].str.extract('gene_name(.*?);')

关于Python - 在 DataFrame 中搜索模式,后跟多个可能的字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55111831/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com