python - 超越循环:高性能，大格式的数据文件解析-6ren

python - 超越循环:高性能，大格式的数据文件解析

转载作者：行者123 更新时间：2023-11-28 22:42:30

我希望优化我使用python时遇到的大数据解析问题的性能。以防有人感兴趣：下面显示的数据是六种灵长类动物全基因组DNA序列比对的片段。
目前，我知道如何处理这类问题的最好方法是打开我的~250（大小20-50MB）文件，逐行循环并提取我想要的数据。格式（如示例所示）是相当规则的，尽管在每个10000到100000行的线段上都有重要的更改。循环工作很好，但速度很慢。
我最近一直在使用numpy来处理大量（>10gb）的数值数据集，我真的很惊讶我能以多快的速度在数组上执行不同的计算。我想知道是否有一些高性能的解决方案来处理格式化的文本，以避免冗长的循环？
我的文件包含多个具有以下模式的段

<MULTI-LINE HEADER>  # number of header lines mirrors number of data columns
<DATA BEGIN FLAG>  # the word 'DATA'
<DATA COLUMNS>  # variable number of columns
<DATA END FLAG>  # the pattern '//'
<EMPTY LINE>

例子：

# key to the header fields:
# header_flag chromosome segment_start segment_end quality_flag chromosome_data
SEQ homo_sapiens 1 11388669 11532963 1 (chr_length=249250621)
SEQ pan_troglodytes 1 11517444 11668750 1 (chr_length=229974691)
SEQ gorilla_gorilla 1 11607412 11751006 1 (chr_length=229966203)
SEQ pongo_pygmaeus 1 218866021 219020464 -1 (chr_length=229942017)
SEQ macaca_mulatta 1 14425463 14569832 1 (chr_length=228252215)
SEQ callithrix_jacchus 7 45949850 46115230 1 (chr_length=155834243)
DATA
GGGGGG
CCCCTC
......  # continue for 10-100 thousand lines
//

SEQ homo_sapiens 1 11345717 11361846 1 (chr_length=249250621)
SEQ pan_troglodytes 1 11474525 11490638 1 (chr_length=229974691)
SEQ gorilla_gorilla 1 11562256 11579393 1 (chr_length=229966203)
SEQ pongo_pygmaeus 1 219047970 219064053 -1 (chr_length=229942017)
DATA
CCCC
GGGG
....  # continue for 10-100 thousand lines
//

<ETC>

我将使用头中同时存在物种 homo_sapiens和 macaca_mulatta的段，并且字段6（我在上面的注释中称之为质量标志）对于每个物种都等于“1”。因为 macaca_mulatta不会出现在第二个示例中，所以我将完全忽略此段。
我只关心 segment_start和 segment_end坐标，所以在存在 homo_sapiens的段中，我将记录这些字段并将它们用作 homo_sapiens的键。 dict()还告诉我 segment_start的第一个位置坐标，当前段中每行数据的第一个位置坐标严格增加1。
我想比较 homo_sapiens和 homo_sapiens的字母（DNA碱基）。出现 macaca_mulatta和 homo_sapiens的标题行（即第一个示例中的1和5）对应于表示其各自序列的数据列。
重要的是，这些列并不总是相同的，所以我需要检查头以获得每个段的正确索引，并检查两个物种是否都在当前段中。
看一下示例1中的两行数据，我的相关信息是

# homo_sapiens_coordinate homo_sapiens_base macaca_mulatta_base
11388669 G G
11388670 C T

对于每个包含 macaca_mulatta和 homo_sapiens信息的段，我将从标题和两个不匹配的位置记录 macaca_mulatta的开始和结束。最后，一些职位有“差距”或质量较低的数据，即。

aaa--A

我只从 homo_sapiens和 homo_sapiens都有有效基（必须在集合 macaca_mulatta中）的位置进行记录，因此我考虑的最后一个变量是每段有效基的计数器。
给定文件的最终数据结构是一个字典，它如下所示：

{(segment_start=i, segment_end=j, valid_bases=N): list(mismatch positions), 
    (segment_start=k, segment_end=l, valid_bases=M): list(mismatch positions), ...}

下面是我编写的使用for循环执行此操作的函数：

def human_macaque_divergence(chromosome):

    """
    A function for finding the positions of human-macaque divergent sites within segments of species alignment tracts
    :param chromosome: chromosome (integer:
    :return div_dict: a dictionary with tuple(segment_start, segment_end, valid_bases_in_segment) for keys and list(divergent_sites) for values
    """

    ch = str(chromosome)
    div_dict = {}

    with gz.open('{al}Compara.6_primates_EPO.chr{c}_1.emf.gz'.format(al=pd.align, c=ch), 'rb') as f:

        # key to the header fields:
        # header_flag chromosome segment_start segment_end quality_flag chromosome_info
        # SEQ homo_sapiens 1 14163 24841 1 (chr_length=249250621)

        # flags, containers, counters and indices:
        species   = []
        starts    = []
        ends      = []
        mismatch  = []

        valid        = 0
        pos          = -1
        hom          = None
        mac          = None

        species_data = False  # a flag signalling that the lines we are viewing are alignment columns

        for line in f:

            if 'SEQ' in line:  # 'SEQ' signifies a segment info field

                assert species_data is False
                line = line.split()

                if line[2] == ch and line[5] == '1':  # make sure that the alignment is to the desired chromosome in humans quality_flag is '1'

                    species += [line[1]]  # collect each species in the header
                    starts  += [int(line[3])]  # collect starts and ends
                    ends    += [int(line[4])]

            if 'DATA' in line and {'homo_sapiens', 'macaca_mulatta'}.issubset(species):

                species_data = True

                # get the indices to scan in data columns:
                hom       = species.index('homo_sapiens') 
                mac       = species.index('macaca_mulatta')
                pos       = starts[hom]  # first homo_sapiens positional coordinate

                continue

            if species_data and '//' not in line:

                assert pos > 0

                # record the relevant bases:
                human   = line[hom]
                macaque = line[mac]

                if {human, macaque}.issubset(bases):
                    valid += 1

                if human != macaque and {human, macaque}.issubset(bases):
                    mismatch += [pos]

                pos += 1

            elif species_data and '//' in line:  # '//' signifies segment boundary

                # store segment results if a boundary has been reached and data has been collected for the last segment:
                div_dict[(starts[hom], ends[hom], valid)] = mismatch

                # reset flags, containers, counters and indices
                species   = []
                starts    = []
                ends      = []
                mismatch  = []

                valid        = 0
                pos          = -1
                hom          = None
                mac          = None
                species_data = False

            elif not species_data and '//' in line:

                # reset flags, containers, counters and indices
                species   = []
                starts    = []
                ends      = []

                pos       = -1
                hom       = None
                mac       = None

    return div_dict

这段代码工作得很好（可能需要一些调整），但我真正的问题是，是否有一种更快的方法来提取这些数据，而不运行for循环并检查每一行？例如，使用 ACGT加载整个文件只需不到一秒钟的时间，尽管它创建了一个相当复杂的字符串。（原则上，我假设我可以使用正则表达式来解析至少一些数据，例如头信息，但我不确定如果没有某种批量方法来处理每个段中的每个数据列，这是否一定会提高性能）。
有人对我如何绕过数十亿行的循环并以更大的方式解析这种文本文件有什么建议吗？
请让我知道，如果有任何不清楚的意见，乐意编辑或直接回应，以改善职位！

最佳答案

是的，您可以使用一些正则表达式一次性提取数据；这可能是工作/性能的最佳比率。
如果您需要更多的性能，可以使用mx.TextTools来构建一个有限状态机；我很有信心这将大大加快速度，但编写规则和学习曲线所需的努力可能会使您气馁。
您还可以将数据分成块并并行处理，这可能会有所帮助。

关于python - 超越循环:高性能，大格式的数据文件解析，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31630260/

文章推荐： python - np.array 的维度变化

文章推荐： ios - UIScrollView: addSubview 不添加项目

文章推荐： java - Tomcat 缓存单点登录系统的旧 dns 条目

文章推荐： python - Python 3 中 Pyspark 的 takeOrdered 键错误

c# - 超越(转换)
如果我有一个基类和两个派生类，我想手工实现两个派生类之间的转换，有什么办法吗？ (在 C# 中) abstract class AbsBase { private int A; priva
nstableview - NSRulerView 超越 NSTableView？
非常基本的场景: 我的 Nib 上有一个 NSTableView，有一个指向它的 socket 。我的应用程序委托(delegate)中有以下内容: - (void)applicationDidFin
optimization - 超越 R 的优化功能
我正在尝试使用 R 来估计具有手动规范的多项 logit 模型。我找到了一些可以让您估计 MNL 模型的软件包 here或 here . 我发现了一些关于“滚动”你自己的 MLE 函数的其他著作 he
zabbix - 超越 Zabbix 中的最大进程数
我正在监视某些 FreeIPA 服务器，这些服务器通常 fork 300 覆盖我专门为同样继承“Template OS Linux”和“Template IPA Servers”的此类服务器创建的另一
Python - 超越 RAM 限制？
我正在尝试分析文本，但我的 Mac 的 RAM 只有 8 GB，并且 RidgeRegressor 在一段时间后停止，并显示 Killed: 9。我认为这是因为它需要更多内存。有没有办法禁用堆栈大小
c# - 数据表，超越，加入
我有一个名为 sourceTable 的数据表，其中包含 source_Id、title 和 programme_Id 列。第二个数据表是 credits，包含 credit_Id、programme
php - 超越 CRUD 的锂应用程序
这或多或少是一个以框架为中心的版本 past Stack Overflow question ，这是关于 MVC 应用程序的大多数介绍性 Material 如何倾向于呈现模型、 View 和 Cont
java - 超越 Python 中的工厂
从 Java 转向 Python，有人告诉我工厂不是 Pythonic。因此，我正在寻找 a Python 方法来执行如下操作。 (我过度简化了我的目标，这样我就不必描述我的整个程序，这非常复杂)。
iphone - 超越 UIView 的交互
当 UIButton 的框架位于其父框架之外时，UIButton(或任何其他控件)是否有可能接收触摸事件？因为当我尝试这个时，我的 UIButton 似乎无法接收任何事件。我该如何解决这个问题？最佳
Delphi 组件创建.. 超越 First Base
我以 VBto 为起点，并大量学习了 Delphi 6 User's Guide。我可以编译我的新组件，但我想不出办法让它显示，所以我可以完成调试。 50 年的编程经验也无济于事。这是我的组件的内容:
Java:超越 HashSet.contains() 的性能优化？
对于以下代码，我得到的平均计算时间为 50 毫秒。我该如何优化 filter(u -> myStrings.contains(u.getName()) 获得更快的计算时间？ list size 300
html - 使用 BeautifulSoup 超越
有没有可能在标签之外使用 BeautifulSoup 。一个恰当的例子是以下页面 http://dsalsrv02.uchicago.edu/cgi-bin/app/biswas-bangala_qu
javascript - 超越 CUMIPMT。 JavaScript 中的函数
有谁知道如何用javascript实现excel CUMIPMT函数。我找到了这个code但好像缺少一些功能。最佳答案这是伪代码，您需要调整它: Object CUMIPMT(double rat
c - 超越 C telnet 服务器中的文本消息
出于教育目的，我应该用 C 编写一个 TCP telnet 服务器。客户端只是作为 telnet 程序连接到服务器。建立连接后，客户端应该会在其控制台上看到一个带有一些选项的菜单，它应该能够通过箭头导
html - 让 parent 超越 child
我有一个父容器，它有一个包含文本的 div: 我有以下 CSS 规则: parent{ clear:both; background:#f3f3f3; min-height:180px; } t
超越 JSLint 的 JavaScript 代码检查
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
excel - 如何使用 VBA 超越 Windows 对话框
下面的代码能够从 Zip 文件中删除文件夹。 Sub del_fol_from_Zip() CreateObject("Shell.Application").Namespace("C:\Users\
microsoft-edge - 超越 Microsoft Edge 朗读速度限制
经过长时间的研究，我创建了我的最佳电子书 (Epub) 阅读器。作为主要设备，我基本上使用 Windows 10 平板电脑和 Microsoft Edge 作为 (Epub) 阅读器。这是伟大的和惊
mysql - 高级 MySQL 模式匹配(超越 LIKE...%)
这是我当前的 MySQL my_table 的示例... id name code 1 111 XXXX123456XXXXXXXX
python - 是否可以本地编译 Python(超越 pyc 字节码)？
我想知道是否可以从 Python 脚本创建可执行模块。我需要拥有 Python 脚本的最佳性能和灵 active ，而不需要在 Python 环境中运行。我会使用此代码加载按需用户模块来自定义我的应用

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 超越循环:高性能，大格式的数据文件解析