python - 如何使用多处理模块迭代列表并将其与字典中的键匹配？-6ren

python - 如何使用多处理模块迭代列表并将其与字典中的键匹配？

转载作者：太空宇宙更新时间：2023-11-03 15:34:59

25

4

我有一个名为 master_lst 的列表，使用以下代码从 CSV 文件创建

infile= open(sys.argv[1], "r")
lines = infile.readlines()[1:]
master_lst = ["read"]
for line in lines:
 line= line.strip().split(',')
 fourth_field = line [3]
 master_lst.append(fourth_field)

此主列表具有唯一的序列集。现在我必须循环 30 个折叠的 FASTA 文件来计算主列表中每个序列的出现次数。这30个文件的文件格式如下:

>AAAAAAAAAAAAAAA
7451
>AAAAAAAAAAAAAAAA
4133
>AAAAAAAAAAAAAAAAA
2783

为了计算出现次数，我循环遍历了 30 个文件中的每一个，并创建了一个字典，其中序列作为键，出现次数作为值。然后，我迭代了 master_lst 的每个元素，并将其与上一步创建的字典中的键进行匹配。如果存在匹配项，我会将键的值附加到新列表 (ind_lst)。如果不是，我将 0 附加到 ind_lst 中。其代码如下:

for file in files:
 ind_lst = []
 if file.endswith('.fa'):
  first = file.split(".")
  first_field = first [0]
  ind_lst.append(first_field)
  fasta= open(file)
  individual_dict= {}
  for line in fasta:
   line= line.strip()
   if line == '':
    continue
   if line.startswith('>'):
    header = line.lstrip('>')
    individual_dict[header]= ''
   else:
    individual_dict[header] += line
  for key in master_lst[1:]:
   a = 0
   if key in individual_dict.keys():
     a = individual_dict[key]
   else:
     a = 0
   ind_lst.append(a)

然后我使用此处解释的代码将 master_lst 写入 CSV 文件和 ind_lst:How to append a new list to an existing CSV file?

最终输出应如下所示:

Read                           file1     file2 so on until file 30
AAAAAAAAAAAAAAA                 7451      4456
AAAAAAAAAAAAAAAA                4133      3624
AAAAAAAAAAAAAAAAA               2783      7012

当我使用较小的 master_lst 时，此代码工作得非常好。但是，当 master_lst 的大小增加时，执行时间会增加太多。我现在正在使用的 master_lst 有 35,718,501 个序列(元素)。当我对 50 个序列进行子集化并运行代码时，脚本需要 2 小时才能执行。因此对于 35,718,501 个序列来说，需要很长时间才能完成。

现在我不知道如何加快脚本速度。我不太确定是否可以对该脚本进行一些改进以使其在更短的时间内执行。我正在具有 16 个 CPU 核心的 Linux 服务器上运行我的脚本。当我使用 top 命令时，我可以看到该脚本仅使用一个 CPU。但我不是 python 专家，我不知道如何使用多处理模块使其在所有可用的 CPU 核心上运行。我检查了这个网页:Learning Python's Multiprocessing Module。

但是，我不太确定 def 和 if __name__ == '__main__': 下应该包含什么。我也不太确定应该将哪些参数传递给该函数。当我尝试 Douglas 的第一个代码时，没有传递任何参数，出现错误，如下所示:

  File "/usr/lib/python2.7/multiprocessing/process.py", line 114, in run

self._target(*self._args, **self._kwargs)

过去几天我一直在研究这个问题，但没有成功地产生我想要的输出。如果有人可以建议一个可以快速运行的替代代码，或者如果有人可以建议如何在多个 CPU 上运行此代码，那就太棒了。任何解决此问题的帮助将不胜感激。

最佳答案

这是一个多处理版本。它使用的方法与您在代码中使用的方法略有不同，无需创建 ind_lst。

区别的本质在于它首先生成所需数据的转置，然后将其转置为所需结果。

换句话说，不是直接创建它:

Read,file1,file2
AAAAAAAAAAAAAAA,7451,4456
AAAAAAAAAAAAAAAA,4133,3624
AAAAAAAAAAAAAAAAA,2783,7012

它首先产生:

Read,AAAAAAAAAAAAAAA,AAAAAAAAAAAAAAAA,AAAAAAAAAAAAAAAAA 
file1,7451,4133,2783
file2,4456,3624,7012

...然后使用内置的 zip() 函数转置它以获得所需的格式。

除了不需要创建ind_lst之外，它还允许为每个文件创建一行数据，而不是其中的一列(这更容易，并且可以更有效地完成) .

代码如下:

from __future__ import print_function

import csv
from functools import partial
from glob import glob
from itertools import izip  # Python 2
import operator
import os
from multiprocessing import cpu_count, Pool, Queue
import sys

def get_master_list(filename):
    with open(filename, "rb") as csvfile:
        reader = csv.reader(csvfile)
        next(reader)  # ignore first row
        sequence_getter = operator.itemgetter(3)  # retrieves fourth column of each row
        return map(sequence_getter, reader)

def process_fa_file(master_list, filename):
    fa_dict = {}
    with open(filename) as fa_file:
        for line in fa_file:
            if line and line[0] != '>':
                fa_dict[sequence] = int(line)
            elif line:
                sequence = line[1:-1]

    get = fa_dict.get  # local var to expedite access
    basename = os.path.basename(os.path.splitext(filename)[0])
    return [basename] + [get(key, 0) for key in master_list]

def process_fa_files(master_list, filenames):
    pool = Pool(processes=4)  # "processes" is the number of worker processes to
                              # use. If processes is None then the number returned
                              # by cpu_count() is used.
    # Only one argument can be passed to the target function using Pool.map(),
    # so create a partial to pass first argument, which doesn't vary.
    results = pool.map(partial(process_fa_file, master_list), filenames)
    header_row = ['Read'] + master_list
    return [header_row] + results

if __name__ == '__main__':
    master_list = get_master_list('master_list.csv')

    fa_files_dir = '.'  # current directory
    filenames = glob(os.path.join(fa_files_dir, '*.fa'))

    data = process_fa_files(master_list, filenames)

    rows = zip(*data)  # transpose
    with open('output.csv', 'wb') as outfile:
        writer = csv.writer(outfile)
        writer.writerows(rows)

    # show data written to file
    for row in rows:
        print(','.join(map(str, row)))

关于python - 如何使用多处理模块迭代列表并将其与字典中的键匹配？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42602306/

25

4

0

文章推荐： python - 在插入或忽略后获取主键的 ID

文章推荐： python - 为什么依赖 numba jitt'ed 函数的顺序很重要？

文章推荐： python - Keras 张量取名

jquery .each 迭代
如果您有超过 1 个具有相同类名的(动态)文本框，并使用 jquery 循环遍历每个所述文本框，您是否可以假设每次选择文本框的顺序都是相同的？示例: 文本框 1 值 = 1文本框 2 值 = 2文本
Python 迭代
有人知道为什么这段代码无法顺利运行吗？它似乎不喜欢使用yield关键字进行迭代:我正在尝试从任何级别的列表或字典中挖掘所有数字(对列表特别感兴趣)。在第二次迭代中，它找到 [2,3] 但无法依次打印
PHPExcel动态单元格生成-迭代
我关于从 mysql 数据库导出数据并将其保存到 Excel 文件(多表)的创建脚本。我需要让细胞动态基因化。该脚本正确地显示了标题，但数据集为空。当我“回显”$value 变量时，我检查了数据是否存
Python 迭代？
我正在尝试在 Python 中运行模拟，由此我绘制了一个数组的随机游走图，给定了两个变量参数的设定水平。但是，我遇到了一个问题，我不确定如何迭代以便生成 250 个不同的随机数以插入公式。例如我已经
jquery .each 迭代
我是学习 jquery 的新手，所以如果这是一个相对简单的问题，我深表歉意。我有一个 ID 为 ChartstoDisplay 的 asp.net 复选框列表。我正在尝试创建 jquery 来根据是否
定义有效案例的算法/迭代
我正在尝试根据在任意数量的部分中所做的选择找出生成有效案例列表的最佳方法。也许它不是真正的算法，而只是关于如何有效迭代的建议，但对我来说这似乎是一个算法问题。如果我错了，请纠正我。实现实际上是在 Ja
scapy - DNSRR 迭代
如果我使用 sr1 为 www.google.com 发送 DNSQR，我会收到几个 DNSRR(s) 作为回复，例如(使用 ans[DNSRR].show() 完成): ###[ DNS Resou
集合字段上的 JPA 迭代
假设有这样一个实体类 @Entity public class User { ... public Collection followers; ... } 假设用户有成千上万的用户关注者。我想分页..
jquery - 如何摆脱 .each() 迭代
这个问题已经有答案了: 已关闭11 年前。 Possible Duplicate: Nested jQuery.each() - continue/break 这是我的代码: var steps =
字典上的 F# 迭代
我刚从 F# 开始，我想遍历字典，获取键和值。所以在 C# 中，我会说: IDictionary resultSet = test.GetResults; foreach (DictionaryEn
c++ - 迭代 ifstream
我知道已经有很多关于如何迭代 ifstream 的答案，但没有一个真正帮助我找到解决方案。我的问题是:我有一个包含多行数据的txt文件。 txt 文件的第一行告诉我其余数据是如何组成的。例如这是我的
javascript - 迭代 If 语句
我有 12 个情态动词。我想将每个模态的 .modal__content 高度与 viewport 高度进行比较，并且如果特定模态 .modal__content 高度 vh addClass("c
if 语句中的 javascript 迭代
在此JSFiddle (问题代码被注释掉)第一次单击空单元格会在隐藏输入中设置一个值，并将单元格的背景颜色设置为绿色。单击第二个空表格单元格会设置另一个隐藏输入的值，并将第二个单元格的背景颜色更改为红
java - 如何访问存储在单链表节点中的对象的特定变量(迭代)
这是一个非常具体的问题，我似乎找不到任何特别有帮助的内容。我有一个单链表(不是一个实现的链表，这是我能找到的全部)，其中节点存储一个 Student 对象。每个 Student 对象都有变量，尽管我在
delphi - 迭代 IHTMLElementCollection
有没有办法迭代 IHTMLElementCollection？比如 var e : IHTMLLinkElement; elementCollection:IHTMLElementCollect
java - 迭代 HashMap ？
我正在尝试用 Java 取得高分。基本上我想要一个 HashMap 来保存 double 值(因此索引从最高的 double 值开始，这样我更容易对高分进行排序)，然后第二个值将是客户端对象，如下所示
sas - 限制 %do %while 迭代
我想在宏函数中运行 while/until 循环，并限制其最大迭代次数。我找到了如何在“通常”sas 中执行此操作: data dataset; do i=1 to 10 until(con
Java - 迭代 HashMap ？
Iterator iterator = plugin.inreview.keySet().iterator(); while (iterator.hasNext()) { Player key
lambda - 序言:迭代
晚上好我有一个简单的问题，我警告你我是序言的新手。假设有三个相同大小的列表，每个列表仅包含 1、0 或 -1。我想验证对于所有 i，在三个列表的第 i 个元素中，只有一个非零。此代码针对固定的 i
recursion - 方案尾递归/迭代
我在 scheme 中构建了一个递归函数，它将在某些输入上重复给定函数 f, n 次。 (define (recursive-repeated f n) (cond ((zero? n) iden

首页

博学

6Ren·AI

商城

python - 如何使用多处理模块迭代列表并将其与字典中的键匹配？