python - 寻找最大的重复子串-6ren

python - 寻找最大的重复子串

转载作者：塔克拉玛干更新时间：2023-11-03 05:38:06

25

4

这是我编写的一个函数，它需要一个很长的文本文件。例如包含整本教科书的文本文件。它将找到任何重复的子字符串并输出最大的字符串。但是现在它不起作用，它只是输出我输入的字符串

例如，如果出现重复整个句子的拼写错误。它会输出那句话；鉴于它是整个文件中最大的。如果有一个错字，整个段落被输入了两次，它会输出该段落。

该算法获取第一个字符，找到任何匹配项，如果匹配且长度最大，则存储子字符串。然后它取前 2 个字符并重复。然后是前 3 个字符。等等。然后它将重新开始，除了从第 2 个字符而不是第 1 个字符开始。然后从第 3 个字符开始一直往回走。

def largest_substring(string):

  length = 0
  x,y=0,0

  for y in range(len(string)):        #start at string[0, ]
    for x in range(len(string)):      #start at string[ ,0]
     substring = string[y:x]          #substring is [0,0] first, then [0,1], then [0.2]... then [1,1] then [1,2] then [1,3]... then [2,2] then [2,3]... etc.
     if substring in string:          #if substring found and length is longest so far, save the substring and proceed.
      if len(substring) > length:
       match = substring
       length = len(substring)

最佳答案

我认为您的逻辑在这里有缺陷，因为它总是返回整个字符串，因为它检查子字符串是否在整个字符串中，这始终为真，因此语句 if substring in string 将始终为 true .相反，您需要查找子字符串在整个字符串中是否多次出现，然后更新计数。

这是解决它的蛮力算法的例子:-

import re

def largest_substring(string):

    length = 0
    x=0
    y=0

    for y in range(len(string)):       
        for x in range(len(string)):     
            substring = string[y:x]                   
            if len(list(re.finditer(substring,string))) > 1  and len(substring) > length:
                match = substring
                length = len(substring)
    return match


print largest_substring("this is repeated is repeated is repeated")

关于python - 寻找最大的重复子串，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25925462/

25

4

0

文章推荐： c - 简化 if 语句的算法

文章推荐： php - 调用未定义的方法 Composer\\Autoload\\ClassLoader::setPsr4()

带文本的 ruby 串
我正在尝试创建一个程序，其中字符串的前三个字符重复给定次数，如下所示: foo('Chocolate', 3) # => 'ChoChoCho' foo('Abc', 3) # => 'AbcAbcA
c++ - 从字符串中分 ionic 串
我有以下字符串: std::string str = "Mode:AAA:val:101:id:A1"; 我想分离一个位于 "val:" 和 ":id" 之间的子字符串，这是我的方法: std::st
c++ - 我们如何有效地压缩 DNA 串
DNA 字符串可以是任意长度，包含 5 个字母(A、T、G、C、N)的任意组合。压缩包含 5 个字母(A、T、G、C、N)的 DNA 字母串的有效方法是什么？不是考虑每个字母表 3 位，我们可以使用
python - 编辑距 ionic 串
是否有一种使用 levenstein 距离将一个特定字符串与第二个较长字符串中的任何区域进行匹配的好方法？例子: str1='aaaaa' str2='bbbbbbaabaabbbb' if str
php - mcrypt 加密将 s 串 '%00' 添加到字符串末尾
使用 OAuth 并使用以下函数使用我们称为“foo”(实际上是 OAuth token )的字符串加密 key public function encrypt( $text ) { // a

首页

博学

6Ren·AI

商城

python - 寻找最大的重复子串