gpt4 book ai didi

python - 寻找使用python优化文本解析速度的实用解决方案

转载 作者:太空宇宙 更新时间:2023-11-04 07:24:43 26 4
gpt4 key购买 nike

需要使用一组不同命名的正则表达式来解析一组行。

每一行都通过每个正则表达式,直到找到匹配项。找到匹配项后,代码应为每一行返回/生成(命名为正则表达式、值)对。

文件大小超过 2GB,因此我正在寻找一些提高解析器速度的想法。

目前代码是通过 python 执行的,但这部分可以更改。一种选择是将所有内容都转换为 C,以从 PCRE 和更快(?)IO 获得更快的速度,但这是一条缓慢的路线,将来很难维护。

我正在寻找实用的解决方案,例如:

  • 将解析器转换为一些更快的语言
  • 转向 cython (?)
  • 将文件分成多个 block 并在几个线程之上运行

最佳答案

首先,我不会担心切换到另一种语言。替代策略可能会产生更大的 yield 。无论如何,python 使用的正则表达式引擎是用 C 编写的 (iirc)。

  1. “优化”正则表达式可能是您的第一项任务。如何做到这一点取决于您的文本和表达方式。有一个look用于文章和示例。 @ThomasH 也提出了一个很好的观点。
  2. 优化正则表达式的最简单方法是删除它;看看是否有机会切换到其他测试,例如 x in yline.endswith()
  3. 尝试使用 pypy 运行您的代码.它可以在不修改代码的情况下提高性能。在您的情况下,虽然 yield 可能微不足道,因为性能与您的正则表达式和文件 io 的性能相关。
  4. 跨多个线程/进程并发处理文件可能是有益的。我建议使用一个进程来读取文件并将行推送到多个进程从中拉出的队列。有很多方法可以做到这一点。看看http://effbot.org/zone/wide-finder.htm#a-multi-processor-python-solution

关于python - 寻找使用python优化文本解析速度的实用解决方案,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6160942/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com