gpt4 book ai didi

python - 搜索 csv 文件,这是最佳实践?

转载 作者:行者123 更新时间:2023-12-03 07:45:13 25 4
gpt4 key购买 nike

我有一个 CSV 文件,如下所示:(在我的 CSV 中没有标题,但为了清楚起见,我在此处添加了标题)

geneName, personNumber, allele1, allele2
gene-1-A, PERSON1, C, G
gene-2_s, PERSON1, A, C
gene_3_D, PERSON1, T, T
.
.
.
gene-1_A, PERSON2, G, G
gene_3_D, PERSON2, A, C
.
.
etc.

每个人可以有 50k 个基因,例如我的文件中有 400 个人。

我需要实现一些条件,例如:

if personX has allele1 in gene-1_A = "A" AND allele1 in gene-1_A = "B" then add to results.txt "PersonX 'cancer possible'"

在这种情况下很重要:有时需要检查2个基因。例如:

if (gene1 = 'A' AND 'B') AND (gene213213 = 'G' AND 'G') THEN add then add to results.txt "PersonX 'cancer possible'"

但是条件不是问题。我可以写。但是在文件中搜索基因又如何呢?我无法将其编入索引,因为有时一个人有基因,而另一个人则没有。

我知道如何通过两种方式做到这一点:

  1. 通过 pandas 将整个 CSV 文件读取到内存中,然后通过替换函数或使用其他方式创建新列创建条件。但它仍然将整个文件加载到内存中。
  2. 使用纯Python逐行读取文件并检查每一行。在第一种情况下,如果一个基因是好的,则将结果保存在新列中。在第二种情况下,当我需要检查 2 个或更多基因时,我可以将结果保存在变量中。使用的内存更少(我认为)但时间更长。

这是我的两个建议,我不知道在这种情况下使用哪个更好。我的解决方案很可能不是该问题的最佳解决方案,因此如果您有其他想法,我将很乐意提供帮助。

结果我需要将所有可能的病人保存在一个新文件中。但移动它们不是问题。

最佳答案

 pd.read_csv(r'../input/data.csv', chunksize='choose your size')

您可以分块读取文件,并且仍然拥有强大的 pandas 技术,例如分组

关于python - 搜索 csv 文件,这是最佳实践?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59931119/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com