gpt4 book ai didi

regex - 如何在 Perl 中匹配多个正则表达式?

转载 作者:行者123 更新时间:2023-12-04 17:04:32 26 4
gpt4 key购买 nike

我看过之前的帖子,关于匹配多个正则表达式
How can I match against multiple regexes in Perl?

我正在寻找将数组中包含的所有值与一个非常大的文件 (500 MB) 进行匹配的最快方法。

模式从标准输入中读取,可能包含必须在正则表达式中使用的特殊字符( anchor 、字符类等)。当所有模式都包含在当前行中时,匹配必须发生。

目前我正在使用嵌套循环,但我对速度不是很满意......

感谢您的建议。

最佳答案

试试 Regexp::Assemble正如您链接到的帖子中所建议的,并将其与 grep 之类的迭代方法进行比较. Regexp::Assemble 应该产生最快的解决方案,因为 Perl 可以优化连接的正则表达式,而不是扫描每一行的整行。由于您事先不知道您的输入,ymmv。

您使用的 Perl 版本会影响性能。 5.10 正是为了这个目的引入了很多优化(参见“tries”)。最大的用例之一是像 SpamAssassin 这样的垃圾邮件扫描器,它为它们扫描的所有模式构建一个大的正则表达式,就像 Regexp::Assemble 一样。

最后,由于您的输入如此之大,可能值得将正则表达式组合成一个文件,然后运行 ​​grep -P -f $regex_file $big_file . -P告诉 grep使用 Perl 兼容的正则表达式。该文件用于避免 shell 引用或命令大小限制。 grep可能会吹走 Perl 的大门。

最后,您将不得不进行基准测试。

关于regex - 如何在 Perl 中匹配多个正则表达式?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6083361/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com