python - 改进 Boyer-Moore 字符串搜索-6ren

python - 改进 Boyer-Moore 字符串搜索

转载作者：太空宇宙更新时间：2023-11-03 23:50:51

24

4

我一直在研究 Boyer-Moore sting 搜索算法，并从 Shriphani Palakodety 的基本代码集开始，我创建了 2 个附加版本(v2 和 v3)——每个版本都进行了一些修改，例如从中删除 len() 函数循环，而不是重构 while/if 条件。从 v1 到 v2，我看到大约有 10%-15% 的改进，从 v1 到 v3 有 25%-30% 的改进(显着)。

我的问题是:是否有人有任何额外的 mod 可以进一步提高性能(如果您可以提交为 v4)- 保持基本“算法”符合 Boyer-Moore。

#!/usr/bin/env python
import time

bcs = {} #the table

def goodSuffixShift(key):
    for i in range(len(key)-1, -1, -1):
        if key[i] not in bcs.keys():
            bcs[key[i]] = len(key)-i-1


#---------------------- v1 ----------------------
def searchv1(text, key):
    """base from Shriphani Palakodety fixed for single char"""
    i = len(key)-1
    index = len(key) -1
    j = i

    while True:
        if i < 0:
            return j + 1
        elif j > len(text):
            return "not found"
        elif text[j] != key[i] and text[j] not in bcs.keys():
            j += len(key)
            i = index
        elif text[j] != key[i] and text[j] in bcs.keys():
            j += bcs[text[j]]
            i = index
        else:
            j -= 1
            i -= 1

#---------------------- v2 ----------------------
def searchv2(text, key):
    """removed string len functions from loop"""
    len_text = len(text)
    len_key = len(key)
    i = len_key-1
    index = len_key -1
    j = i

    while True:
        if i < 0:
            return j + 1
        elif j > len_text:
            return "not found"
        elif text[j] != key[i] and text[j] not in bcs.keys():
            j += len_key
            i = index
        elif text[j] != key[i] and text[j] in bcs.keys():
            j += bcs[text[j]]
            i = index
        else:
            j -= 1
            i -= 1

#---------------------- v3 ----------------------
def searchv3(text, key):
    """from v2 plus modified 3rd if condition 
    breaking down the comparison for efficiency,
    modified the while loop to include the first
    if condition (opposite of it)
    """
    len_text = len(text)
    len_key = len(key)
    i = len_key-1
    index = len_key -1
    j = i

    while i >= 0 and j <= len_text:
        if text[j] != key[i]:
            if text[j] not in bcs.keys():
                j += len_key
                i = index
            else:
                j += bcs[text[j]]
                i = index
        else:
            j -= 1
            i -= 1

    if j > len_text:
        return "not found"
    else:
        return j + 1


key_list = ["POWER", "HOUSE", "COMP", "SCIENCE", "SHRIPHANI", "BRUAH", "A", "H"]

text = "SHRIPHANI IS A COMPUTER SCIENCE POWERHOUSE"

t1 = time.clock()
for key in key_list:
    goodSuffixShift(key)
    #print searchv1(text, key)
    searchv1(text, key)
    bcs = {}

t2 = time.clock()
print('v1 took %0.5f ms' % ((t2-t1)*1000.0))

t1 = time.clock()
for key in key_list:
    goodSuffixShift(key)
    #print searchv2(text, key)
    searchv2(text, key)
    bcs = {}

t2 = time.clock()
print('v2 took %0.5f ms' % ((t2-t1)*1000.0))

t1 = time.clock()
for key in key_list:
    goodSuffixShift(key)
    #print searchv3(text, key)
    searchv3(text, key)
    bcs = {}

t2 = time.clock()
print('v3 took %0.5f ms' % ((t2-t1)*1000.0))

最佳答案

使用“in bcs.keys()”是创建一个列表，然后对该列表进行 O(N) 搜索——只需使用“in bcs”。

在搜索函数中执行 goodSuffixShift(key) 操作。两个好处:调用者只有一个 API 可以使用，并且您可以避免将 bcs 作为全局(可怕的 ** 2)。

您的缩进有几个地方不正确。

更新

这不是 Boyer-Moore 算法(使用两个查找表)。它看起来更像 Boyer-Moore-Horspool 算法，它只使用第一个 BM 表。

可能的加速:在设置 bcs 字典后添加行 'bcsget = bcs.get'。然后替换:

if text[j] != key[i]:
    if text[j] not in bcs.keys():
        j += len_key
        i = index
    else:
        j += bcs[text[j]]
        i = index

与:

if text[j] != key[i]:
    j += bcsget(text[j], len_key)
    i = index

更新 2 -- 回到基础，比如在优化之前让代码正确

版本 1 有一些错误，您已将这些错误带入版本 2 和 3。一些建议:

将未找到响应从“未找到”更改为 -1。这使其与 text.find(key) 兼容，您可以使用它来检查结果。

获取更多文本值，例如“R”* 20、“X”* 20 和“XXXSCIENCEYYY”用于您现有的键值。

建立一个测试工具，像这样:

func_list = [searchv1, searchv2, searchv3]
def test():
    for text in text_list:    
        print '==== text is', repr(text)
        for func in func_list:
             for key in key_list:
                try:
                    result = func(text, key)
                except Exception, e:
                    print "EXCEPTION: %r expected:%d func:%s key:%r" % (e, expected, func.__name__, key)
                    continue
                expected = text.find(key)
                if result != expected:
                    print "ERROR actual:%d expected:%d func:%s key:%r" % (result, expected, func.__name__, key)

运行它，修复 v1 中的错误，继续这些修复，再次运行测试，直到一切正常。然后您可以按照相同的方式整理您的时序线束，并查看性能如何。然后你可以在这里报告，我会告诉你我对 searchv4 函数应该是什么样子的想法;-)

关于python - 改进 Boyer-Moore 字符串搜索，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1106112/

24

4

0

文章推荐： python - Pylons/Routes 将 POST 或 GET 重写为精美的 URL

文章推荐： html - CSS :after background in Safari for Windows

文章推荐： python - 伪造一个 cookie 以在 python 中抓取一个站点

c++ - 哪个是更好的字符串搜索算法？ Boyer-Moore 还是 Boyer Moore Horspool？
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
c++ - 哪个是更好的字符串搜索算法？ Boyer-Moore 还是 Boyer Moore Horspool？
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
c - Boyer-Moore良好后缀的启发式方法
我了解不良字符启发法的工作原理。当找到不匹配的字母x时，只需移动模式，以使模式中最右边的x与字符串中的x对齐。而且很容易在代码中实现。我想我也了解后缀启发式的工作原理。当找到合适的后缀s时，请在模式
algorithm - Boyer-Moore字符串搜索算法的移位规则是什么？
我一直在尝试了解Boyer-Moore字符串搜索算法中的移位规则，但还不了解它们。我在wikipedia上阅读过，但这太复杂了! 如果有人以简单的方式列出规则，那将有很大的帮助。最佳答案在Boye
algorithm - Boyer Moore算法的理解和例子？
我在理解 Boyer Moore 字符串搜索算法时遇到问题。我正在关注以下文档。 Link 我无法弄清楚 delta1 和 delta2 在这里的真正含义是什么，以及他们如何应用它来查找字符串搜索算
c++ - Boyer Moore算法的正确实现
我尝试了几个实现，但它们都有错误。在 SO 搜索给了我 http://www-igm.univ-mlv.fr/~lecroq/string/node14.html - 看起来不错，但这个实现给了我错
c++ - Boyer Moore - 坏字符规则实现子串搜索
我正在尝试使用 2D 数组从 boyer moore 实现错误字符规则以进行子字符串搜索，我遇到了我看到我的 arr[0][1] 与 arr[1][0] 重叠的情况这引起了问题。我试图遍历 VS 中的
c# - 了解 Boyer Moor
我正在尝试在大量文本中实现精确的文本搜索。为此，我找到了一些针对 c# 的 Boyer Moore 实现示例，但现在我无法理解它是如何工作的。例如，如果我有字符串 this is sample te
string - Boyer More exact 子串是否匹配动态规划的范例？
我会说是，因为使用了一个右表来确定您必须跳过多少字符。对此有什么想法吗？最佳答案 Dynamic programming is when you use past knowledge to make
java - Boyer-Moore 多数表决算法的内存复杂度？
根据我的理解，找到多数元素的 Boyer-Moore 多数表决算法是 O(1)，即它是常数，与输入的大小不成比例。那为什么要wiki link提到对数空间 {\displaystyle O(\log
algorithm - Boyer-Moore 算法中的移位规则
关于此算法中的两个转换规则(坏字符和好后缀)，我有些不明白。他们是否一起工作，以及究竟是什么决定了在每种情况下或轮类中部署哪一个。 This综合解释以 SSIMPLE EXAMPLE 的示例结束，这让
string - Boyer-Moore 字符串搜索算法运行时间复杂度
在Boyer-Moore string search algorithm wiki 链接，据说 Boyer-Moore 的最坏情况复杂度是 O(m+n) 如果模式没有出现在文本中 O(mn) 如果模式
java - Boyer-Moore 字符串搜索算法起始对齐
我不是专业程序员，所以请多多包涵。我正在四处寻找为什么 haystack 和 needle 的初始“对齐”不应该在 needle 的最后一个字符与 haystack 中的相同字符的第一次一致时进行，但
c++ - Boyer-Moore 多数投票算法的二次通过要求
我正在研究 Boyer-Moore 算法(来自 here)，我有一个快速的问题 - 第二遍的需要是什么(它基本上只是通过找到该元素的频率来“确认”)。第一个传递本身不是保证找到的元素是多数元素吗？我考
string - 执行 Boyer-Moore 模式匹配时是否必须考虑编码？
我即将实现 Boyer-Moore 模式匹配算法的变体(具体来说是星期日算法)，我问自己:我的字母表大小是多少？这取决于编码(= 可能的字符数)还是我可以假设我的字母表包含 256 个符号(= 可以
delphi - 用于优化字符串的库(Boyer-Moore 算法)
我在项目中大量使用字符串，因此我正在寻找一个快速的库来处理它们。我认为 Boyer-Moore 算法是最好的。有免费的解决方案吗？最佳答案您可以考虑实现 Boyer–Moore 算法的以下资源:
c++ - 字符指针在简单的 Boyer-Moore 实现中搞砸了
我目前正在试验一个非常简单的 Boyer-Moore 变体。总的来说，我的实现是有效的，但如果我尝试在循环中使用它，包含干草堆的字符指针就会变得困惑。我的意思是其中的字符被更改或混合。结果是一致的
c - Boyer-Moore-Horspool 实现
我想获得 Boyer-Moore-Horspool 实现来搜索文本文件中的某些字符串。这是我的代码: #include #include #include int bmhSearch(char
python - Boyer moore 算法 - 计算所有匹配的子串
我正在用 python 实现 boyer moore 算法，我需要计算一个子串在一个字符串中出现了多少次。我的字符串存储在一个向量中: string = ['A', 'B', 'B', 'C', '
python - 改进 Boyer-Moore 字符串搜索
我一直在研究 Boyer-Moore sting 搜索算法，并从 Shriphani Palakodety 的基本代码集开始，我创建了 2 个附加版本(v2 和 v3)——每个版本都进行了一些修改，例

首页

博学

6Ren·AI

商城

python - 改进 Boyer-Moore 字符串搜索