r 用于从地址中提取英国邮政编码的正则表达式未排序-6ren

r 用于从地址中提取英国邮政编码的正则表达式未排序

转载作者：行者123 更新时间：2023-12-01 09:13:28

24

4

我正在尝试使用英国政府 here 提供的正则表达式从 R 中的地址字符串中提取英国邮政编码。

这是我的功能:

address_to_postcode <- function(addresses) {

  # 1. Convert addresses to upper case
  addresses = toupper(addresses)

  # 2. Regular expression for UK postcodes:
  pcd_regex = "[Gg][Ii][Rr] 0[Aa]{2})|((([A-Za-z][0-9]{1,2})|(([A-Za-z][A-Ha-hJ-Yj-y][0-9]{1,2})|(([A-Za-z][0-9][A-Za-z])|([A-Za-z][A-Ha-hJ-Yj-y][0-9]?[A-Za-z])))) {0,1}[0-9][A-Za-z]{2})"

  # 3. Check if a postcode is present in each address or not (return TRUE if present, else FALSE)
  present <- grepl(pcd_regex, addresses)

  # 4. Extract postcodes matching the regular expression for a valid UK postcode
  postcodes <- regmatches(addresses, regexpr(pcd_regex, addresses))

  # 5. Return NA where an address does not contain a (valid format) UK postcode
  postcodes_out <- list()
  postcodes_out[present] <- postcodes
  postcodes_out[!present] <- NA

  # 6. Return the results in a vector (should be same length as input vector)
  return(do.call(c, postcodes_out))
}

根据指导文档，这个正则表达式查找的逻辑如下:

"GIR 0AA" OR One letter followed by either one or two numbers OR One letter followed by a second letter that must be one of ABCDEFGHJ KLMNOPQRSTUVWXY (i.e..not I) and then followed by either one or two numbers OR One letter followed by one number and then another letter OR A two part post code where the first part must be One letter followed by a second letter that must be one of ABCDEFGH JKLMNOPQRSTUVWXY (i.e..not I) and then followed by one number and optionally a further letter after that AND The second part (separated by a space from the first part) must be One number followed by two letters. A combination of upper and lower case characters is allowed. Note: the length is determined by the regular expression and is between 2 and 8 characters.

我的问题是，在使用没有 ^ 和 $ anchor 的正则表达式时，这个逻辑没有完全保留(在这种情况下我必须这样做，因为邮政编码可能在地址字符串中的任何位置)；我正在努力解决的是如何在部分(而不是完整)字符串匹配中保留每个段的顺序和字符数。

考虑以下示例:

> address_to_postcode("1A noplace road, random city, NR1 2PK, UK")
[1] "NR1 2PK"

根据指南中的逻辑，邮政编码中的第二个字母不能是“z”(还有一些其他排除项)；但是看看当我添加一个“z”时会发生什么:

> address_to_postcode("1A noplace road, random city, NZ1 2PK, UK")
[1] "Z1 2PK"

...而在这种情况下，我希望输出为 NA 。

添加 anchor (对于不同的用例)似乎没有帮助，因为即使“z”位于错误的位置，它仍然被接受:

> grepl("^[Gg][Ii][Rr] 0[Aa]{2})|((([A-Za-z][0-9]{1,2})|(([A-Za-z][A-Ha-hJ-Yj-y][0-9]{1,2})|(([A-Za-z][0-9][A-Za-z])|([A-Za-z][A-Ha-hJ-Yj-y][0-9]?[A-Za-z])))) {0,1}[0-9][A-Za-z]{2})$", "NZ1 2PK")
[1] TRUE

两个问题:

是不是我误解了正则表达式和

的逻辑

如果不是，我该如何更正(即为什么不是指定的字母
和字符范围专属于它们在正则表达式中的位置)？

最佳答案

编辑

自从发布这个答案后，我深入研究了英国政府的正则表达式，发现了更多问题。 I posted another answer here 描述了所有问题，并为格式不佳的正则表达式提供了替代方案。

笔记

请注意，我在这里发布了原始正则表达式。移植到 r 时，您需要转义某些字符(如反斜杠 \ )。

问题

您在这里有很多问题，所有这些问题都是由创建您从中检索正则表达式的文档的人或创建它的编码人员引起的。

1.空格符

我的猜测是，当您从提供的链接复制正则表达式时，它将空格字符转换为换行符并将其删除(这正是我最初所做的)。相反，您需要将其更改为空格字符。

^([Gg][Ii][Rr] 0[Aa]{2})|((([A-Za-z][0-9]{1,2})|(([A-Za-z][A-Ha-hJ-Yj-y][0-9]{1,2})|(([AZa-z][0-9][A-Za-z])|([A-Za-z][A-Ha-hJ-Yj-y][0-9]?[A-Za-z])))) [0-9][A-Za-z]{2})$
                                                                                                                                                here ^

2. 边界

您需要删除 anchor ^ 和 $，因为它们指示行的开始和结束。相反，将您的正则表达式包装在 (?:) 中，并在任一端放置一个 \b(字边界)，如下所示。事实上，文档中的正则表达式是不正确的(有关更多信息，请参阅旁注 )，因为它无法正确 anchor 定模式。

See regex in use here

\b(?:([Gg][Ii][Rr] 0[Aa]{2})|((([A-Za-z][0-9]{1,2})|(([A-Za-z][A-Ha-hJ-Yj-y][0-9]{1,2})|(([AZa-z][0-9][A-Za-z])|([A-Za-z][A-Ha-hJ-Yj-y][0-9]?[A-Za-z])))) [0-9][A-Za-z]{2}))\b
^^^^^                                                                                                                                                                      ^^^

3.字符类监督

正如 @deadcrab 在他的回答 here 中指出的那样，字符类中缺少 - 。

\b(?:([Gg][Ii][Rr] 0[Aa]{2})|((([A-Za-z][0-9]{1,2})|(([A-Za-z][A-Ha-hJ-Yj-y][0-9]{1,2})|(([A-Za-z][0-9][A-Za-z])|([A-Za-z][A-Ha-hJ-Yj-y][0-9]?[A-Za-z])))) [0-9][A-Za-z]{2}))\b
                                                                                           ^

4. 他们将错误的字符类设为可选!

在文档中 清楚地 声明:

A two part post code where the first part must be:

One letter followed by a second letter that must be one of ABCDEFGHJKLMNOPQRSTUVWXY (i.e..not I) and then followed by one number and optionally a further letter after that

他们将错误的字符类设为可选!

\b(?:([Gg][Ii][Rr] 0[Aa]{2})|((([A-Za-z][0-9]{1,2})|(([A-Za-z][A-Ha-hJ-Yj-y][0-9]{1,2})|(([A-Za-z][0-9][A-Za-z])|([A-Za-z][A-Ha-hJ-Yj-y][0-9]?[A-Za-z])))) [0-9][A-Za-z]{2}))\b
                                                                                                                                        ^^^^^^
                                                                                                                        it should be this one ^^^^^^^^

5.整件事太糟糕了......

这个正则表达式有很多问题，我决定重写它。它可以很容易地简化为执行当前匹配文本所需的一小部分步骤。

\b(?:[A-Za-z][A-HJ-Ya-hj-y]?[0-9][0-9A-Za-z]? [0-9][A-Za-z]{2}|[Gg][Ii][Rr] 0[Aa]{2})\b

回答

正如我的回答下面的评论中提到的，一些邮政编码缺少空格字符。对于邮政编码中缺少的空格(例如 NR12PK )，只需在空格后添加 ? ，如下面的正则表达式所示:

\b(?:[A-Za-z][A-HJ-Ya-hj-y]?[0-9][0-9A-Za-z]? ?[0-9][A-Za-z]{2}|[Gg][Ii][Rr] ?0[Aa]{2})\b
                                             ^^                             ^^

您还可以使用以下内容缩短上面的正则表达式并使用不区分大小写的标志( r 中的 ignore.case(pattern) 或 ignore_case = TRUE ，取决于所使用的方法。):

\b(?:[A-Z][A-HJ-Y]?[0-9][0-9A-Z]? ?[0-9][A-Z]{2}|GIR ?0A{2})\b

笔记

请注意，正则表达式仅验证字符串的可能格式，而不能实际识别邮政编码是否合法存在。为此，您应该使用 API。还有一些边缘情况，这个正则表达式不能正确匹配有效的邮政编码。有关这些邮政编码的列表，请参阅此 Wikipedia article 。

下面的正则表达式还匹配以下内容(使其不区分大小写以匹配小写变体):

英国海外领土

英国军队邮局

尽管他们最近将其更改为与英国邮政编码系统保持一致，为 BF ，后跟一个数字(以 BF1 开头)，但它们被认为是可选的替代邮政编码

那篇文章中概述的特殊情况(以及 SAN TA1 - 圣诞老人的有效邮政编码!)

See this regex in use here 。

\b(?:(?:[A-Z][A-HJ-Y]?[0-9][0-9A-Z]?|ASCN|STHL|TDCU|BBND|[BFS]IQ{2}|GX11|PCRN|TKCA) ?[0-9][A-Z]{2}|GIR ?0A{2}|SAN ?TA1|AI-?[0-9]{4}|BFPO[ -]?[0-9]{2,3}|MSR[ -]?1(?:1[12]|[23][135])0|VG[ -]?11[1-6]0|[A-Z]{2} ? [0-9]{2}|KY[1-3][ -]?[0-2][0-9]{3})\b

我还建议任何实现此答案的人阅读 this StackOverflow question titled UK Postcode Regex (Comprehensive) 。

边注

您链接到的文档( Bulk Data Transfer: Additional Validation for CAS Upload - Section 3. UK Postcode Regular Expression )实际上有一个不正确的正则表达式。

正如问题部分所述，它们应该具有:

将整个表达式包裹在 (?:) 中，并将 anchor 放置在非捕获组周围。他们的正则表达式，就目前而言，在某些情况下会失败，如 here 所示。

正则表达式在字符类

之一中也缺少 -

它还使错误的字符类成为可选的。

关于r 用于从地址中提取英国邮政编码的正则表达式未排序，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51828712/

24

4

0

文章推荐： python - 如何逐步增加类次并进行训练？

文章推荐： java - 如何构建多层测试对象？

文章推荐： python - Tkinter 网格不工作

performance - 更快地计算两个位置之间的距离(邮政编码)
我正在编写一个 VBA 脚本，用于查找指定半径内的邮政编码。我有一个 Access 数据库，表中有多个记录。每条记录在表中都有一个名称、地址和邮政编码字段。 Access 时的 VBA 代码提示用户输
python - 数据验证 - 邮政编码
我遇到了以下问题: 定义一个函数 postalValidate(S) ，它首先检查 S 是否代表一个有效的邮政编码:首先，删除所有空格；余数必须是 L#L#L# 的形式，其中 L 是字母(小写或大写)
javascript - 检索特定列/邮政编码
我试图仅检索此脚本中的邮政编码字段。有没有办法只返回这个值？ function LookuptableWend(query) { var tr = document.get
javascript - Jquery 邮政编码 clientvalidate
我正在开发一个自定义验证器来验证和替换(如果可能)邮政编码。这是荷兰邮政编码，应类似于“5050 AA”。当用户输入“5050AA”时，该邮政编码应替换为“5050 AA”。我通过将以下脚本添加到我的
Javascript 邮政编码，六位数字(不包括空格)
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。要求提供代码的问题必须表现出对所解决问题的最低限度的了解。包括尝试的解决方案、为什么它们不起作用以及预期结果
php - 解析输入以查看它是地址、邮政编码、城市还是州？
我有一个工作板，用户可以通过 Google-Maps API 提交他的位置，该 API 在 map 上绘制工作。问题是，因为它是一个基于位置的工作板，所以我想允许最广泛的输入是邮政编码(这样用户可以
PHP 酒吧定位器邮政编码 MYSQL
在我的 php 文件上使用此功能时，我不断出现空屏幕，XML 文件中没有属性 // Get parameters from URL $center_lat = ( isset( $_GET["
php - 地名城市 [邮政编码] 表
我如何防止接收带有子站点的城市并只接收最大的村庄。示例: 目前我得到 2 条记录，第一个是主要城市，第二个是邻居。但我只想要主要城镇。 CH 8280 Kreuzlingen CH
php - 邮政编码/位置搜索 - PHP
对不起，我迷路了。我正在尝试构建一个搜索页面，该页面使用英国邮政编码或位置来查找气枪网站(我们称它们为“商店”，这样我就不必向那些不知道气枪是什么的人解释)，每个store 我在邮政编码、县、城镇/城
mysql - 搜索查询 - 邮政编码、公司名称或位置
我对 SQL 查询有点困惑。用户应该能够搜索邮政编码、公司名称或位置我有下表: 公司表 companyid | name | location 1 Sh
PHP MySQL 存储距离计算器 - 邮政编码
是的，我一直在努力研究如何将给定的邮政编码与商店地址的数据库进行比较，并根据哪个最接近给定的邮政编码(我猜是邮政编码)对它们进行排序。这主要是出于兴趣，而不是我征求你的意见然后卖给客户:-O 首先，
python - 在python中通过正则表达式提取Alberta(加拿大)邮政编码
我想从地址字符串中提取阿尔伯塔(加拿大)地区的邮政编码。例如: addr = '12345-67 Ave, Edmonton, AB T1A 2B3, Canada' 应该提取T1A 2B3。匹
ruby - ruby 中的格式字符串(邮政编码)
我需要重新格式化英国邮政编码列表，并从以下内容开始去除空格和大写: postcode.upcase.gsub(/\s/,'') 我现在需要更改邮政编码，以便新邮政编码的格式与以下正则表达式匹配: ^(
excel - 检测单元格中超过 5 个字符的宏(邮政编码)
我创建了一个基于列名检索范围的函数。这是我的代码: Sub sep_Filter() Dim zip_rng As String With Sheet2 zip_rng
web-services - 邮政编码 + 国家/地区到地理坐标
获取给定国家的给定邮政编码/邮政编码的坐标(纬度/经度)的最完整、精确和可靠的方法是什么？我需要发出大量请求，因此高 API 限制率(甚至可能不存在)会很有用。 GeoNames转储会很酷，但它似乎有
string - 从字符串中解析可用的街道地址、城市、州、邮政编码
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 8 年前。 Improve this ques
javascript - 结帐页面付款方式选项卡中的 Opencart 邮政编码/城市
如何在 Opencart 版本 2.1.0.2 的付款方式选项卡中发布发货城市或邮政编码的数据我想将 COD 限制在某些城市。有人可以帮我吗？最佳答案创建自定义表来存储可用的邮政编码。为产品列表
elasticsearch - 定制分析器，用例:邮政编码[ElasticSearch]
将其设置为名为customers / customer的索引/类型。此集合的每个文档都有一个邮政编码属性。邮政编码基本上可以像这样: 字符串-字符串(例如:8907-1009) 字符串字符串(例如
iphone - 从邮政编码(邮政编码)或城市/州获取坐标
我现在正在使用 Map Kit 和 Core Location，需要从邮政编码或城市/州获取位置信息。有什么办法吗？最佳答案您可以使用 CLGeocoder支持将地址转换为坐标以及反向转换的类。例
user-input - 您是否将地址分解为街道/城市/州/邮政编码？
我当前的应用程序需要存储用户的地址信息。我目前正在争论是使用惯用的街道地址/城市/州/ zip 文本框和下拉菜单，还是采用 Google 的方法，将所有内容都放在一行上。关于以这两种方式存储地址信息的

首页

博学

6Ren·AI

商城

r 用于从地址中提取英国邮政编码的正则表达式未排序