perl - 如何确定几个字符串中最长的相似部分？-6ren

perl - 如何确定几个字符串中最长的相似部分？

转载作者：塔克拉玛干更新时间：2023-11-03 02:31:20

25

4

根据标题，我试图找到一种方法来以编程方式确定几个字符串之间相似性的最长部分。

例子:

file:///home/gms8994/Music/t.A.T.u./
file:///home/gms8994/Music/nina%20sky/
file:///home/gms8994/Music/A%20Perfect%20Circle/

理想情况下，我会返回 file:///home/gms8994/Music/，因为这是所有 3 个字符串共有的最长部分。

具体来说，我正在寻找 Perl 解决方案，但任何语言(甚至伪语言)的解决方案就足够了。

来自评论:是的，只是在开始；但是有可能在列表中有一些其他条目，对于这个问题将被忽略。

最佳答案

编辑:很抱歉弄错了。遗憾的是，我发现在 countit(x, q{}) 中使用 my 变量是一个大错误。该字符串在 Benchmark 模块中进行评估，@str 在那里是空的。这个解决方案没有我介绍的那么快。请参阅下面的更正。再次抱歉。

Perl 可以很快:

use strict;
use warnings;

package LCP;

sub LCP {
    return '' unless @_;
    return $_[0] if @_ == 1;
    my $i          = 0;
    my $first      = shift;
    my $min_length = length($first);
    foreach (@_) {
        $min_length = length($_) if length($_) < $min_length;
    }
INDEX: foreach my $ch ( split //, $first ) {
        last INDEX unless $i < $min_length;
        foreach my $string (@_) {
            last INDEX if substr($string, $i, 1) ne $ch;
        }
    }
    continue { $i++ }
    return substr $first, 0, $i;
}

# Roy's implementation
sub LCP2 {
    return '' unless @_;
    my $prefix = shift;
    for (@_) {
        chop $prefix while (! /^\Q$prefix\E/);
        }
    return $prefix;
}

1;

测试套件:

#!/usr/bin/env perl

use strict;
use warnings;

Test::LCP->runtests;

package Test::LCP;

use base 'Test::Class';
use Test::More;
use Benchmark qw(:all :hireswallclock);

sub test_use : Test(startup => 1) {
    use_ok('LCP');
}

sub test_lcp : Test(6) {
    is( LCP::LCP(),      '',    'Without parameters' );
    is( LCP::LCP('abc'), 'abc', 'One parameter' );
    is( LCP::LCP( 'abc', 'xyz' ), '', 'None of common prefix' );
    is( LCP::LCP( 'abcdefgh', ('abcdefgh') x 15, 'abcdxyz' ),
        'abcd', 'Some common prefix' );
    my @str = map { chomp; $_ } <DATA>;
    is( LCP::LCP(@str),
        'file:///home/gms8994/Music/', 'Test data prefix' );
    is( LCP::LCP2(@str),
        'file:///home/gms8994/Music/', 'Test data prefix by LCP2' );
    my $t = countit( 1, sub{LCP::LCP(@str)} );
    diag("LCP: ${\($t->iters)} iterations took ${\(timestr($t))}");
    $t = countit( 1, sub{LCP::LCP2(@str)} );
    diag("LCP2: ${\($t->iters)} iterations took ${\(timestr($t))}");
}

__DATA__
file:///home/gms8994/Music/t.A.T.u./
file:///home/gms8994/Music/nina%20sky/
file:///home/gms8994/Music/A%20Perfect%20Circle/

测试套件结果:

1..7
ok 1 - use LCP;
ok 2 - Without parameters
ok 3 - One parameter
ok 4 - None of common prefix
ok 5 - Some common prefix
ok 6 - Test data prefix
ok 7 - Test data prefix by LCP2
# LCP: 22635 iterations took 1.09948 wallclock secs ( 1.09 usr +  0.00 sys =  1.09 CPU) @ 20766.06/s (n=22635)
# LCP2: 17919 iterations took 1.06787 wallclock secs ( 1.07 usr +  0.00 sys =  1.07 CPU) @ 16746.73/s (n=17919)

这意味着使用 substr 的纯 Perl 解决方案比 Roy's solution 快大约 20%在您的测试用例中，查找一个前缀大约需要 50us。除非您的数据或性能期望更大，否则没有必要使用 XS。

关于perl - 如何确定几个字符串中最长的相似部分？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/499967/

25

4

0

文章推荐： .htaccess - mod_rewrite htaccess 问题

文章推荐： Laravel:将输入查询的结果更改为友好的 url

文章推荐： algorithm - 构建或查找 "relevant terms"建议功能

Clojure 映射-最长
我正在尝试编写一个名为 map-longest 的 Clojure 实用函数(感谢备用名称建议)。该函数将具有以下“签名”: (map-longest fun missing-value-seq c1
arrays - 最长 K 序贯递增子序列
为什么我创建了一个重复的线程我在阅读后创建了这个线程 Longest increasing subsequence with K exceptions allowed .我意识到提出问题的人并没有真
excel - VBA 最长 Collatz 序列
我正在编写一个 Sub 来识别 1 到 1000 之间最长的 Collatzs 序列。由于我刚刚开始学习 VBA，我想知道如何添加过程来计算每个序列的长度。 Sub Collatz() Dim i
excel - VBA 最长 Collatz 序列
我正在编写一个 Sub 来识别 1 到 1000 之间最长的 Collatzs 序列。由于我刚刚开始学习 VBA，我想知道如何添加过程来计算每个序列的长度。 Sub Collatz() Dim i
python - 最短、最长、平均持续时间 csv
我正在尝试减去 CSV 中的两列以创建第三列“持续时间”结束时间 - 开始时间每一行也对应一个用户 ID。我可以创建一个仅包含“持续时间”列的 csv 文件，但我宁愿将其重定向回原始 csv。例
raku - Peel 6 最长 token 匹配的非贪婪模式是不是一部分？
我在 2018.04 玩这个最长的 token 匹配，但我认为最长的 token 不匹配: say 'aaaaaaaaa' ~~ m/ | a+? | a+ /; # ｢a｣
python - 最长 200 字节字符串 - 数据库验证 max_length
因此，按照规范规定最终用户/应用程序提供的给定变量(200 字节)的字节长度。使用 python 字符串，字符串的最大字符长度是多少，满足 200 字节，因此我可以指定我的数据库字段的 max_le
jenkins - 如何获得 Jenkins (Jenkins)最长 build 时间的工作 list
我需要针对我们的Jenkins构建集群生成每周报告。报告之一是显示具有最长构建时间的作业列表。我能想到的解决方案是解析每个从属服务器(也是主服务器)上的“构建历史”页面，对于作业的每个构建，都解析该
ios - 对短视频(最长 15 秒)使用 HLS 是个好主意吗？
我正在构建一个 iOS 应用程序，它将流式传输最长为 15 秒的视频。我阅读了有关 HLS 的好文章，因此我一直在对片段大小为 5 秒的视频进行转码。如果视频的第一部分加载时间太长，那么我们可以在接下
regex - Perl 6 最长 token 匹配的 "additional tie breaker"是什么？
docs for Perl 6 longest alternation in regexes punt to Synopsis 5记录 longest token matching 的规则.如果不同的

首页

博学

6Ren·AI

商城

perl - 如何确定几个字符串中最长的相似部分？