python - 正则表达式 - 在文本中搜索相似的国家名称-6ren

python - 正则表达式 - 在文本中搜索相似的国家名称

转载作者：太空宇宙更新时间：2023-11-04 04:25:54

28

4

我想从预定义国家/地区列表中识别出现在文本中的国家/地区。问题是，有些名字非常相似，所以如果文本中有一个国家，它也会识别出另一个国家。例如:

text1 = "The disease has spread to three countries: Guinea, Guinea-Bassau and Equatorial Guinea."

text2 = "Only Guinea-Bassau and Equatorial Guinea contained strains of the virus."

list_of_countries = ['Guinea', 'Guinea-Bassau', 'Equatorial Guinea']

我还没有想出一个代码来返回 text1 的所有三个列表项，但只为 text2 返回“Guinea-Bassau”和“Equatorial Guinea”。

这只是一个具体的例子。我当然可以为非洲的 3 个几内亚国家的具体问题创建一个临时解决方案，但问题将返回到“刚果共和国”和“刚果民主共和国”等。

编辑:我想到解决这个问题的一种方法是删除/丢弃文本中的任何实例，一旦它匹配可能的最长命名国家/地区。

最佳答案

你可以使用

import re

text1 = "The disease has spread to three countries: Guinea, Guinea-Bassau and Equatorial Guinea."
text2 = "Only Guinea-Bassau and Equatorial Guinea contained strains of the virus."
list_of_countries = ['Guinea', 'Guinea-Bassau', 'Equatorial Guinea']

# Sort the list by length in descending order
list_of_countries=sorted(list_of_countries,key=len,reverse=True)
# Build the alternation based regex with \b to match each item as a whole word 
rx=r'\b(?:{})\b'.format("|".join(list_of_countries))
print(re.findall(rx, text1))
# => ['Guinea', 'Guinea-Bassau', 'Equatorial Guinea']
print(re.findall(rx, text2))
# => ['Guinea-Bassau', 'Equatorial Guinea']

参见 Python demo

请注意，按长度降序对 list_of_countries 列表进行排序很重要，因为列表中的项目可能有空格并且可能从字符串中的相同位置开始。

形成的正则表达式是

\b(?:Equatorial Guinea|Guinea-Bassau|Guinea)\b

参见 regex demo

详情

\b - 单词边界
(?: - 非捕获组的开始，以便可以将单词边界应用于每个备选方案
- 赤道几内亚
- | - 或者
- 几内亚巴绍
- | - 或
- 几内亚
) - 组结束
\b - 单词边界。

关于python - 正则表达式 - 在文本中搜索相似的国家名称，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53500141/

28

4

0

文章推荐： linux - Linux操作系统上Flash中的多点触控架构

文章推荐： linux - ubuntu utf-8 转换器脚本

文章推荐： linux - scp作为后台工作？

文章推荐： javascript - 如何使用 css 控制此 js 脚本中的嵌入文本

android - 如何获取当前设备的地区/国家？
这个问题在这里已经有了答案: Where am I? - Get country (10 个答案) How can I get my Android device country code with
ios - 如何以编程方式检查应用程序商店区域/国家？
有办法检查吗？我有一个应用程序 URL，除非用户有英国应用商店，否则我不想打开该 URL。不幸的是，这个应用程序在许多国家/地区都可用，因此当我在链接上添加“gb”时，它会被重定向到用户的本地区域。
timezone - 国家/地区到时区映射数据库
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足 Stack Overflow guidelines 。目前不接受答案。我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以
Android:获取设备的当前语言和地区(国家)
获取设备当前区域的最佳方法是什么？假设用户在德国并使用意大利语作为设备语言。如果我使用 Locale.getDefault()，那么国家和语言就会相互映射，即语言是it，国家是IT。我想要的是它和DE
c# - 国家/地区显示名称和代码的下拉列表
有人可以给我一个示例或教程，其中显示国家及其代码的下拉列表我的代码显示错误的新西兰语言代码，它显示 mi-NZ 而不是 en-NZ ASP.NET protected void Page_Load(o
php - 国家/地区下拉列表
我是 Ajax 和 PHP 的新手，遇到动态下拉国家和州的问题。虽然我已经检查了 stackOverflow 中的所有答案，但我无法清楚地了解我们应该如何成功地编写代码以获得所需的结果。 count
java - 国家、州和城市微调器无法正常工作
我一直在开发一个注册表单应用程序，其中使用了几个微调器小部件。微调器用于选择国家、州和城市。因此，这些微调器需要以某种方式相互连接(下面的代码将展示我如何尝试实现这一点)。表单代码: fragmen
javascript - 国家/州动态下拉列表
如果你去http://profile.microsoft.com并编辑您的个人信息，您将选择您的国家。选择国家/地区后，城市和/或州信息会根据该国家/地区的预期变化。有没有人有任何关于如何实现这一目标
r - 子集空间点以提取多边形内部的空间点(国家/地区边界)
我有一个带有经纬度坐标的 data.frame: df<-data.frame( lat=c(40, 30, 40.864), lon=c(0, 20, 1.274) )
django - 如何在注册表中使用 django 国家？
我正在尝试在将与 django-allauth 一起使用的注册表中添加 django-countries。按照说明 https://github.com/SmileyChris/django-coun
ruby-on-rails - 国家/地区的下拉菜单
嗨，我想为国家和州实现下拉列表。州下拉列表应根据所选国家/地区更改其值。是否有任何插件或 gem 可以在 Rails 中执行此操作。最佳答案试试卡门插件: http://autonomousma
php - 基于PHP的系统中与域(国家)有关的横幅
我的服务器上安装了基于PHP的Youtube克隆系统。几个国家使用相同的系统。假设我有3个域都指向同一系统: www.site.hr www.site.ba www.site.rs 他们都重定向到一
国家/地区域的 Azure DNS
在我的 Azure DNS 和域提供商中设置后，我想使用我的国家/地区域名 mydomain.id，但我仍然无法在应用服务中验证我的域。我已经仔细检查了所有内容，我认为我的设置已经正确。现在我想知道我
automation - "official"国家/地区列表的数据来源
最近，我们开始遇到向网络应用程序的用户呈现过时的国家/地区列表的问题。我们目前有一些数据库表来存储本地化的国家/地区名称及其地区(州)。然而，随着地球的发展，该列表在不断演变，并且事实证明维护起来很
python - django-国家/地区下拉列表不显示
This is the third iteration of this question as errors have been solved (在一些人的感激帮助下)。为了避免对到底发生了什么感到困
currency - ISO 国家/货币数据
全部，我们的应用程序需要有关 ISO 国家和货币的数据(其中数据必须是最新的)。我们确实从 ISO 自己购买了国家/货币数据，但是我们仍然需要对数据执行大量手动操作，以及编写我们自己的工具来读取数据
sql - 国家/地区电话代码，包括区号
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以便
php - 国家/城市/州验证
我想使用 PHP 和 jQuery 执行以下操作 https://www.careerbuilder.com/share/register.aspx?sc_cmp1=JS_LoginASPX_RegN
c# - 如何处理(国家)代码列表中的弃用值
假设我们有一个包含所有国家/地区代码的代码列表。国家代码是 Countries 表的主键，它在数据库中的许多地方用作外键。在我的应用程序中，国家通常显示为多个表单的下拉列表。一些过去曾经存在的国家不
java - 根据语言环境(国家)获取当前日期和时间
我想根据语言环境获取当前日期/时间。如果我传递 locale 对象，我需要获取国家/地区的相关日期/时间。最佳答案从 Java 8 开始，您有 LocalDateTime 和 ZonedDateT

首页

博学

6Ren·AI

商城

python - 正则表达式 - 在文本中搜索相似的国家名称