r - 模糊地址匹配 R-6ren

r - 模糊地址匹配 R

转载作者：行者123 更新时间：2023-12-03 16:52:02

25

4

是的，以前有人问过这个问题，但我找不到可以为这个问题提供简单、干净的答案的线程。

我有下面的示例数据 - 我有两列，col1 是当前地址，col2 是我被告知比当前地址“更好”的地址。我需要看看第二列比第一列“更好”多少。大多数情况下，第二个更好 b/c 它包含第一个缺少的次要信息，例如公寓号。

test <- as.data.frame(matrix(c(
"742 Evergreen Terrace" , "742 Evergreen Terrace Apt 3" , 
"31 Spooner Street #42" , "31 Spooner Street", 
"129 W 81st Street" , "129 W 81st Street Apt 5A" , 
"245 E 73rd Street", "245 E 73rd Street Apt 6") , ncol=2, byrow=TRUE, 
dimnames=list(NULL, c("old_addr" , "new_addr"))) ,stringsAsFactors=FALSE)

我在这里找到了一个接近我想要的答案:
Fuzzy match row in one column with same row in next column

我需要创建第三列，它是一个简单的 1/0 变量，如果近似匹配则为 == 1，否则为 0。我需要能够为近似匹配指定阈值。

对于我的第一个示例 - 742 Evergreen Terrace 与 742 Evergreen Terrace Apt 3，长度相差 6。我需要能够指定六、八或其他的长度差异。

我查看了 agrep，但我需要比较同一行中的两列数据，但它不允许这样做。我也尝试过 lapply，但它的结果让我认为它正在遍历整个列中的所有数据，我需要逐行比较。还有最大距离我不明白，下面是 ifelse，最大值为 1(如果我正确理解为 1 == 可以有一个编辑或更改单位)，它应该抛出错误，但它只在一个案件。

agrep(test$old_addr, test$new_addr, max.distance = 0.1, ignore.case = TRUE)

test$fuzz_match <- lapply(test$old_addr , agrep , x = 
test$new_addr , max.distance = 1 , ignore.case = TRUE)

任何帮助表示赞赏，谢谢!

最佳答案

您可以计算Levenshtein distance每对之间。那么你需要决定的是，距离必须有多大才能使两者不是同一个地址。

test$lev_dist <- mapply(adist, test$old_addr, test$new_addr)

test$same_addr <- test$lev_dist < 5

test
#                old_addr                    new_addr lev_dist same_addr
# 1 742 Evergreen Terrace 742 Evergreen Terrace Apt 3        6     FALSE
# 2 31 Spooner Street #42           31 Spooner Street        4      TRUE
# 3     129 W 81st Street    129 W 81st Street Apt 5A        7     FALSE
# 4     245 E 73rd Street     245 E 73rd Street Apt 6        6     FALSE

您可以使用 agrep()连同 mapply()以类似的方式。

test$agrep_match <- mapply(agrep, test$old_addr, test$new_addr)
test$agrep_match <- lengths(test$agrep_match) == 1
test
#                old_addr                    new_addr agrep_match
# 1 742 Evergreen Terrace 742 Evergreen Terrace Apt 3        TRUE
# 2 31 Spooner Street #42           31 Spooner Street       FALSE
# 3     129 W 81st Street    129 W 81st Street Apt 5A        TRUE
# 4     245 E 73rd Street     245 E 73rd Street Apt 6        TRUE

agrep()也基于 Levenshtein 距离，但有许多不同的选项来调整阈值，我相信你已经发现了。

除了 Levenshtein 之外，还有其他差异度量可能更适合此应用程序。套餐 stringdist有许多其他可用的字符串距离度量。

关于r - 模糊地址匹配 R，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51527582/

25

4

0

文章推荐： c# - 多个 AddHostedService dotnet 核心

文章推荐： sql - 在 SQL 中计算百分位数

文章推荐： Angular 6 默认路由未加载。我怎样才能解决这个问题？

JavaScript 模糊
我正在学习 Javascript，我正在尝试创建一个简单的下拉菜单。我想要的功能的示例可以在 Google 主页的顶部菜单中看到，其中包含“更多”和“设置”下拉菜单。我有一个使用 onclick()
Tinymce 模糊/焦点事件
我尝试捕捉 tinyMce 编辑器的模糊和焦点事件。我为此找到了以下方法。 ed.onInit.add(function(ed) { tiny
jQuery 模糊() 不起作用？
这里完全被难住了。尝试一些很简单的东西，但它不起作用: $("input.input1, textarea.input1").focus(function(){ $(this).addClas
jQuery 模糊() 和点击()
我有以下 jQuery 函数: 提交表单 $(".content").delegate('.entryButton','click', function() {var form = $(this).c
jQuery 切换焦点/模糊
如何使用 jQuery 在焦点/模糊上切换元素的 CSS？ $('.answerSpace').bind('blur', function(){ $('.normProf').toggleClass(
iPhone:模糊 UIImage
在我的 iPhone 应用程序中，我有一个黑白 UIImage。我需要模糊该图像(高斯模糊即可)。 iPhone 显然知道如何模糊图像，如 it does that when it draws sha
javascript - 如何向图像添加滤镜(模糊)
这个问题已经有答案了: Blurring an image via CSS? (6 个回答) 已关闭 7 年前。我有一个场景。我想随着循环的进行模糊我的图像。我怎样才能做到这一点？这是我的代码。
java - 模糊 'StringIndexOutOfBoundsException"
这个错误是在子字符串方法上抛出的，我发现很多线程都在处理这个问题，但我遇到的问题似乎有所不同。我知道如果您的字符串短于子字符串(开始，结束)大小，它会抛出此错误，但在任何内容传递到方法调用之前都会抛出
Qt运动(线性)模糊
是否有简单的解决方案可以在 Qt 中为图像添加运动模糊？还没有找到任何关于模糊的好教程。我需要一些非常简单的东西，我可以理解，如果我可以改变模糊角度，那就太好了。最佳答案 Qt 没有运动模糊过滤器。
jQuery - 模糊，但如果单击按钮则不会
我的搜索框在正常状态下很小。焦点对准时，它会展开，并显示一个提交按钮。这样做是为了节省空间。现在，在模糊时，搜索框再次缩小，提交按钮消失。问题是，通过使提交按钮成为“竞赛”以在正确的位置单击它，对提
c# - RenderTargetBitmap 模糊
您好，我正在使用 PngBitmapEncoder 从 Canvas 在内存中创建图像。 public void CaptureGraphic() { Canvas canvas = new
javascript - 模糊();单击鼠标中键
我已经搜索过谷歌、这个和其他论坛，但无济于事……太棒了，有没有可能有像 onMiddleClick="blur();"这样的东西？在单击鼠标中键时隐藏链接的焦点边框？最佳答案 $('a').clic
Android 纹理看起来不清楚/模糊
我无法在我的应用程序中正确渲染我的纹理。我使用的艺术品是精确的，并且已经缩放且尺寸合适，但是当我在手机上渲染它时，我的纹理突然不如原始艺术品清晰/精确，我不明白为什么。有人遇到过这个问题吗？最佳答
android - 使父布局背景变暗/模糊
这里有与上述主题相同的问题但没有得到答复我这里有布局我需要在底部布局中使用与顶部布局相同的图像，但使用模糊样式设置 alpha 没有帮助 - TextView 也会影响如何虚化down布局的背
java - 如何检测页面中是否包含句子(模糊)？
我已经搜索了一段时间，但到目前为止没有找到适合我需要的东西。 ( This was helpful, but not convincing ) 从两个不同的来源，我得到两个不同的字符串。我想检查较短的
Javascript 模糊，密码输入不起作用
我有这样的代码: var passwordTextBox = angular.element("#password"); passwordTextBox.blur(function()
JQuery 隐藏可折叠菜单点击其他地方 - 模糊 -
设置此 JQuery 函数无法正常工作。有时，如果我单击元素，什么也没有发生，并且它会触发隐藏可折叠菜单的功能，如果单击文档上的任意位置，则不会重定向到正确的 href。有什么更好的方法吗？ HTML
python - 裁剪功能后字母模糊/模糊
尝试通过将坐标列表保存到数组来在多个位置裁剪我的图像后，裁剪区域中的字母变得非常模糊，我无法弄清楚原因。原图看起来像裁剪后的图像看起来像题中代码如下: import numpy as np im
android - 如何仅使屏幕的一部分变暗/模糊？
我知道我们可以调暗/模糊屏幕，如 this post 所示. 我应该怎么做才能使它的一部分变暗/模糊，使单个(或多个) View 没有任何效果，从而使整个屏幕具有突出显示 View 的效果？此外，即
php(模糊)搜索匹配
如果有人曾经向 digg 提交过故事，它会检查该故事是否已经提交，我假设是通过模糊搜索。我想实现类似的东西，想知道他们是否使用开源的 php 类？ Soundex 不这样做，句子/字符串的长度可达

首页

博学

6Ren·AI

商城

r - 模糊地址匹配 R