algorithm - 替代 Levenshtein 距离的前缀/后缀-6ren

algorithm - 替代 Levenshtein 距离的前缀/后缀

转载作者：塔克拉玛干更新时间：2023-11-03 02:37:20

25

4

我有一个从许多不同来源编译的大城市数据库。我正在尝试找到一种方法来根据城市名称轻松发现重复项。天真的答案是使用 levenshtein 距离。然而，城市的问题在于它们通常具有所在国家/地区通用的前缀和后缀。

例如:

bool 维尔与博舍维尔

这些几乎可以肯定是不同的城市。然而，因为它们都以“ville”结尾(并且都以“Bo”开头)，所以它们的 Levenstein 距离相当小。

*我正在寻找一种字符串距离算法，它考虑到字符的位置，通过对单词中间字母的权重高于单词末尾字母的权重来最小化前缀和后缀的影响. *

我或许可以自己写一些东西，但我很难相信还没有人发布合适的算法。

最佳答案

这类似于 stemming在自然语言编程中。

在该字段中，在执行进一步分析之前找到词干，例如

run => run
running => run
runs => run

(当然，ran 之类的东西并不是 run 的结果。为此可以使用词形还原器。但我离题了...)。尽管词干提取在 NLP 中远非完美，但它的效果非常好。

在您的情况下，在应用 Levenstein 之前使用特定于城市名称的规则来阻止城市可能会很有效。我不知道针对城市的词干分析器实现，但表面上看规则似乎相当简单。

您可以从前缀列表和后缀列表(包括任何常见的变体/拼写错误)开始，然后在检查 Levenstein 距离之前简单地删除这样的前缀/后缀。

附带说明一下，如果您有其他地址信息(例如街道地址或 zip /邮政编码)，许多国家/地区都有地址规范化软件，可以根据地址特定算法找到最佳匹配。

关于algorithm - 替代 Levenshtein 距离的前缀/后缀，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20648459/

25

4

0

文章推荐： mod-rewrite - mod_rewrite 强制小写 url

文章推荐： url - 一个域中具有相同标题和/或元描述的两个页面

文章推荐： php - PHP 警告如何影响 Google SEO

文章推荐： arrays - 查找需要从数组中删除的元素，使得 2*min>max

elasticsearch - Elasticsearch 错误-[前缀]查询不支持[前缀]
发布以下查询时，出现错误响应 {"error":{"root_cause":[{"type":"parsing_exception","reason":"[prefix] query does not
django - 找不到平台无关的库 <前缀> 考虑将 $PYTHONHOME 设置为 <前缀>[ :]
我对 Python 和 Django 真的很陌生......我想做的是: 在 Mac OS 10.6.8 上安装 Python 2.7 安装 pip 安装 Django 安装 virtualenvwr
前缀，中缀，后缀表达式
前缀表达式前缀表达式又称波兰式，前缀表达式的运算符位于操作数之前。例如： ( 3 + 4 ) × 5 − 6 (3+4)×5-6(3+4)×5−6 对应的前缀表达式就是 - × + 3 4 5 6
unicode - 英特尔C编译器和L”前缀
如何在Intel C编译器中定义俄语字符串？在MSVS 2008中，我这样做： _wsetlocale(LC_ALL, L"Russian"); wprintf(L"текст"); 而且有效。在
makefile - 在Makefile中设置环境变量时@前缀
这是我到目前为止所得到的: SPECS = $(shell find spec -iname "*_spec.js") spec: @NODE_ENV=test \ @NODE_PAT
clojure - 前缀::是什么意思
我看到了下面的前缀::它代表什么？ :abc 是一个关键字，但是 ::abc 是什么？谢谢，穆尔塔扎最佳答案假设当前命名空间是my.app。然后， ::x 是 :my.app/x 的阅读器简写，
javascript - 如何从嵌入中排除 `+` 前缀
我为我的 discord 创建了一个建议功能，用户可以说 +suggest(建议)，它会自动发布到另一个 channel 。有些事情我需要帮助: 将“建议由用户制作”放入标题中，而不是在单独的行中。
c -++(前缀)返回左值吗？
#include int main() { int a=1; printf("%d",(++a)++); return 0; } 此代码出现错误 error: invalid lvalue in
Java:前缀 - 后缀问题
我在使用前缀和后缀运算符对数字执行减法时遇到了一个小问题。这是我的程序: public class postfixprefix { public static void main (Strin
html - 前缀 - 这是什么意思
当我在 Android native 浏览器中运行 HTML5 兼容性测试时，它会看到 IndexedDB 支持标记为“Prefixed”，而在 Chrome 和其他浏览器中则标记为“Yes”。我知道
c++ - 运算符重载--(前缀)
我试过重载运算符--前缀，但我有错误，有人帮忙吗？ #include #include "Circulo.h" using namespace std; int main() { //par
javascript - 如何在每一行前面加上 `>` 前缀
我正在尝试在我正在制作的这个论坛上创建一个引用功能，当我按下引用时，我只需用 Markdown 填充 textarea ，但唯一的事情是我需要在每行的 markdown 前面加上 > 前缀，这样它就是
c++ - 带线程的运算符++(前缀)
friend 之间打赌。sum 变量定义为全局变量。我们有 2 个线程在循环 1..100 上运行并在每个循环中将 sum 递增 1。打印什么？“和=”？ int sum = 0; void fun
c++ - 前缀/后缀增量
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Post Increment and Pre Increment concept? 谁能明确解释前缀增量与后
c++ - 有没有办法避免在模板基类成员前面加上 `this` 前缀？
从模板类继承时，我需要在派生类中访问的所有基类成员前面加上this: template struct X{ int foo; void bar(); }; template struct
c++ - 为什么通过函数指针调用成员函数时需要 "this"前缀？
据我所知，在 C++ 中，在同一类的函数成员中调用另一个成员函数不需要“this”前缀，因为它是隐式的。但是，在使用函数指针的特定情况下，编译器需要它。仅当我通过 func 指针为调用包含“this”
c++ - 我们是否需要在嵌套类型的成员参数前加上 "::"前缀？
例如，考虑以下名称冲突的地方 nest1 : template class nest1 {}; class cls { public: template class nest1 {};
c++ - 指针算术递增后缀/前缀
我无法理解下面一段特定代码的逻辑。 int i[] = { 21, 4, -17, 45 }; int* i_ptr = i; std::cout << (*i_ptr)++ << std::endl
php - 数据库搜索减去 "The"前缀
有人能给我指出正确的方向吗，我目前有一个可搜索的数据库，但遇到了按标题搜索的问题。如果标题以“The”开头，那么显然标题将位于“T”部分，避免搜索“The”的好方法是什么？我应该连接两个字段来显示标
ios - 前缀 - 配置有问题
我在 2 小时前创建了一个新项目。以与我的旧(不同)项目相同的方式配置它，一切正常。在我的 podfile 中我有: pod 'CocoaLumberjack', '2.0.0-rc2' 如果我在

首页

博学

6Ren·AI

商城

algorithm - 替代 Levenshtein 距离的前缀/后缀