gpt4 book ai didi

python - 如何使用python计算csv文件中具有条件的元素

转载 作者:行者123 更新时间:2023-12-04 14:59:14 24 4
gpt4 key购买 nike

我是 python 语言的新手。我有一个 csv 格式的表,其中包含 n 列,其中标题是 Tax_id,每列都包含这样的物种名称

9606                  9606.1               508771  
0 root root root
1 cellular organisms cellular organisms cellular organisms
2 Eukaryota Eukaryota Eukaryota
3 Opisthokonta Opisthokonta Sar
4 Metazoa Metazoa Alveolata
5 Eumetazoa Eumetazoa Apicomplexa
6 Bilateria Bilateria Conoidasida
7 Deuterostomia Deuterostomia Coccidia
8 Chordata Chordata Eucoccidiorida
9 Craniata Craniata Eimeriorina

我想要做的是能够编写一个 python 代码,该代码仅针对包含名为“Metazoa”的物种的列计算每个物种的出现次数。

#to return something like

Eumetazoa 2
Bilateria 2
Craniata 2

最佳答案

我仍然不完全确定你想要什么。这样的东西有用吗?请注意,您需要为此安装 pandas 包 ( How to install pandas )。

我假设您的 CSV 文件看起来像:

s = '''9606,9606.1,508771
0,root,root,root
1,cellular organisms,cellular organisms,cellular organisms
2,Eukaryota,Eukaryota,Eukaryota
3,Opisthokonta,Opisthokonta,Sar
4,Metazoa,Metazoa,Alveolata
5,Eumetazoa,Eumetazoa,Apicomplexa
6,Bilateria,Bilateria,Conoidasida
7,Deuterostomia,Deuterostomia,Coccidia
8,Chordata,Chordata,Eucoccidiorida
9,Craniata,Craniata,Eimeriorina'''

算法:

import pandas as pd
from io import StringIO

def filter_and_count(df, search_string):
df_filtered = df.loc[:, (df == search_string).any(axis=0)]
return pd.melt(df_filtered)['value'].value_counts()

df = pd.read_csv(StringIO(s)) # replace this with read_csv("filename")
print(filter_and_count(df, 'Metazoa'))

输出:

root                  2
Metazoa 2
Deuterostomia 2
Craniata 2
cellular organisms 2
Chordata 2
Eumetazoa 2
Opisthokonta 2
Eukaryota 2
Bilateria 2
Name: value, dtype: int64

关于python - 如何使用python计算csv文件中具有条件的元素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67273981/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com