python - 用于提取以 Mr.|Mrs|The|DR 开头的姓名的正则表达式-6ren

python - 用于提取以 Mr.|Mrs|The|DR 开头的姓名的正则表达式

转载作者：行者123 更新时间：2023-12-03 16:56:36

26

4

我试图写正则表达式来识别以 MR|MS|THE|DR 开头的名字
例如

      HONOURABLE THE CHIEF JUSTICE MR. JUSTICE
 1    VIKRAM NATH,HONOURABLE MR. JUSTICE             1     1      0     3       5
      J.B.PARDIWALA
      HONOURABLE THE CHIEF JUSTICE MR. JUSTICE
 2    VIKRAM NATH,HONOURABLE MR. JUSTICE VIPUL M.    0     1      0     0       1
      PANCHOLI
      HONOURABLE THE CHIEF JUSTICE MR. JUSTICE
 3    VIKRAM NATH,HONOURABLE MR. JUSTICE ASHUTOSH   107    4     10     6      127
      J. SHASTRI

所以，输出应该是

[THE CHIEF JUSTICE MR. JUSTICE VIKRAM NATH, MR. JUSTICE J.B.PARDIWALA]
[THE CHIEF JUSTICE MR. JUSTICE VIKRAM NATH, MR. JUSTICE VIPUL M. PANCHOLI]
and so on

但我得到

THE CHIEF JUSTICE MR. JUSTICE VIKRAM NATH 
MR. JUSTICE             1     1      0     3       5
      J.B.PARDIWALA

我试过 \s*HONOURABLE\s+(?=THE|MR|MS|DR)([^/\[\]\n]*)HONORABLE 可以重复任何编号。次。
任何帮助，将不胜感激
提前致谢!

最佳答案

赏金答案
您可以使用

import re
text = """     HONOURABLE THE CHIEF JUSTICE MR. JUSTICE
 1    VIKRAM NATH,HONOURABLE MR. JUSTICE             1     1      0     3       5
      J.B.PARDIWALA
      HONOURABLE THE CHIEF JUSTICE MR. JUSTICE
 2    VIKRAM NATH,HONOURABLE MR. JUSTICE VIPUL M.    0     1      0     0       1
      PANCHOLI
      HONOURABLE THE CHIEF JUSTICE MR. JUSTICE
 3    VIKRAM NATH,HONOURABLE MR. JUSTICE ASHUTOSH   107    4     10     6      127
      J. SHASTRI"""
text = re.sub(r'^[\d \t]+|[\d \t]+$', '', text, flags=re.M)
#print(text)
m = re.findall(r'^HONOURABLE\s+(.*(?:\n(?!HONOURABLE\b).*)*)', text, re.M)
for x in m:
    print(x.replace('\n',' '))

输出:

[
  'THE CHIEF JUSTICE MR. JUSTICE VIKRAM NATH,HONOURABLE MR. JUSTICE J.B.PARDIWALA',
  'THE CHIEF JUSTICE MR. JUSTICE VIKRAM NATH,HONOURABLE MR. JUSTICE VIPUL M. PANCHOLI',
  'THE CHIEF JUSTICE MR. JUSTICE VIKRAM NATH,HONOURABLE MR. JUSTICE ASHUTOSH J. SHASTRI'
]

见 Python demo .
详情 :

re.sub(r'^[\d \t]+|[\d \t]+$', '', text, flags=re.M)从文本中每行的开头和结尾删除所有空格、制表符和数字。

r'^HONOURABLE\s+(.*(?:\n(?!HONOURABLE\b).*)*)'是与“修剪”文本中的以下内容匹配的正则表达式:

^ - 一行的开始

HONOURABLE - 一句话HONOURABLE

\s+ - 一个或多个空格

(.*(?:\n(?!HONOURABLE\b).*)*) - 捕获组 1:

.* - 该行的其余部分

(?:\n(?!HONOURABLE\b).*)* - 零个或多个不以 HONOURABLE 开头的行作为一个整体。

原答案
您可以使用

\bHONOURABLE\s+((?:THE|MR|MS|DR)[^,]*)

见 regex demo .如果您不想在结果列表项中包含换行符，您可以稍后用 .replace('\n', ' ') 替换它们。 .如果您想在 [ 处限制比赛的右手边边界, \和 ] ，将它们添加到否定字符类，更改 [^,]至 [^][/,] .
细节:

\bHONOURABLE - 一个字HONOURABLE

\s+ - 一个或多个空格

((?:THE|MR|MS|DR)[^,]*) - 捕获组 1:THE , MR , MS , DR后跟零个或多个除逗号以外的字符。

见 Python demo :

import re
rx = r"\bHONOURABLE\s+((?:THE|MR|MS|DR)\b[^,]*)"
text = "HONOURABLE THE CHIEF JUSTICE MR. JUSTICE\nVIKRAM NATH,HONOURABLE MR. JUSTICE ASHUTOSH\nJ. SHASTRI, HONOURABLE MS. ADITI GUPTA"
m = re.findall(rx, text)
print([x.replace('\n','') for x in m])

输出:

['THE CHIEF JUSTICE MR. JUSTICEVIKRAM NATH', 'MR. JUSTICE ASHUTOSHJ. SHASTRI', 'MS. ADITI GUPTA']

关于python - 用于提取以 Mr.|Mrs|The|DR 开头的姓名的正则表达式，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66046399/

26

4

0

文章推荐： java - JPA 实体解析错误

文章推荐： macos - 如何仅提供 .zip 文件的上下文菜单项？

文章推荐： XPath 只选择一定数量的级别

php - 如何选择与(姓名，姓氏)OR(姓氏，姓名)串联匹配的所有记录
我正在使用 ajax 实时搜索来选择名称和姓氏的串联与输入的文本匹配的所有用户，并且效果很好: $sql = "SELECT * FROM users WHERE concat(name,' ',su
javascript - 姓名、身份证件变更
我尝试建立一个注册表单。该注册表单为名为“address1”的文本框，其附近有一个名为“Add Address”的按钮。该按钮的功能 - 添加更多地址的文本框。先前地址框附近的按钮更改为“删除”，从而
javascript - 表单验证不适用于电话号码/姓名
我一直在尝试制作一个验证电话号码和姓名的表单，但无论何时输入提交，无论字段是否填写，它都只会输入相同的消息。消息不断出现，我想不通预计到达时间:http://jsfiddle.net/6W3uU/
javascript - 姓名，电子邮件验证
我正在寻找验证上的姓名和电子邮件输入的代码我希望用户名只有 A-Z , a-z并且必须有一个下划线 _ , 电子邮件应该有一个 @ .我怎样才能用 jQuery 做到这一点？表格(示例):
php - 如何在Laravel中显示 parent 姓名
我在db中有一个带有id，name和parent的部门表.parent是与父root对应的id。现在我已经显示了id（父id），但是我想显示与之对应的部门的名称我已经在Departmentcontro
SQL 查找平均得分最高的 worker 姓名
我正在尝试显示平均分最高的 worker 的姓名。我的第一个表是 worker 表并存储 worker_id 和 worker_name。第二张表是测试表，存储了参加测试的worker_id、test
winforms - 获取 parent 姓名
用什么方法或变量可以找到本例中父对象的名称？也就是说，当鼠标悬停在第一个按钮上时，获取名称 $GetParentName = "Button01"，第二个 $GetParentName = "Butt
php - 从mysql数据库获取 parent 姓名
我有一个数据库，其中一个表中有父名称。列:id、名称。以及其他表中的id、parent_id、name。在搜索字段中我输入名称。更不用说鲍勃、爱丽丝和汤姆了。我必须在数据库中搜索 child 名为鲍勃
mysql - 如何通过MYSql查询获取 parent 姓名
我有以下查询: SELECT ty.id, ty.type, ty.pid, if(ty.pid = 0, '-', (select ty.type from bid_type ty w
php - 递归获取 parent 姓名
我有一个如下所示的数据库: CREATE TABLE Persons ( id int, parentID int, name varchar(255) ); INSERT I
c++ - If语句打印 worker 姓名
我无法获得预期的结果我希望我的程序显示任何人都可以帮助我。该程序用于打印结构中列出的 worker 姓名，如果您不输入任何这些姓名，我应该打印不存在的 worker 姓名。有人可以告诉我要使用的代码/
javascript - 使用javascript从json对象获取 parent 姓名
我正在读取 JSON 对象并以表格格式名称和文本在 html 中显示它们，但无法使用 javascript 获取节点的父名称 { "A": { "B": "Text",
iPad 报亭订阅者信息(姓名、电子邮件、 zip )
当用户在我的 iPad 报亭应用上购买杂志订阅时，他们会收到分享一些信息的提示: 分享您的信息？ [此处的应用名称] 的发布者希望根据他们的隐私政策使用您的姓名、电子邮件和邮政编码。但是，我似乎无法
java - 从文本文件中提取某些值(姓名、电子邮件、电话号码)
我有一大堆电子邮件，需要从中提取信息。我最近接手了一个网站，该网站将客户的所有联系信息存储在电子邮件中。他们想要开始将其存储在数据库中。我正在使用 Java 来尝试提取这些信息。我有点陷入困境。我能
QuickBooks AccountQuery - 全名不包括 parent 姓名
我有一个使用 qbXml 和 Intuit Web 连接器与 QuickBooks 同步的应用程序。我在查询帐户时注意到一些异常行为。根据规范，一个帐户的全名应该包括它的任何祖先的名字，用冒号分隔。
pandas - 如果[姓名]列中的姓氏相似，请填写另一列的缺失值
下面是一个更大的数据框的示例。 Fare Cabin Pclass Ticket Name 257 86.5000 B77 1 110152
c# - 迭代工作列表以打印职位、姓名、雇主、职位和核心能力
我在我的 Program.cs 文件中有一个方法要实现。当该方法遍历作业列表(其中每个作业都是一个字典)时，它应该打印: ***** name: Data Scientist / Business I
mysql - 从包含 ID、姓名、薪水三列的表中查找第二高薪水
如何从包含三列的表格中查找第二高薪水，这些列是id、name、 salary，但在SELF JOIN中使用。通过嵌套查询得到答案。但是，我想知道我们如何使用 SELF JOIN 构建框架最佳答案如
php - SQL 查询选择所有没有订单、姓名、实际地址和电话号码的用户
我想在 WooCommerce 中运行 SQL 查询来选择所有没有订单、姓名、实际地址和电话号码的用户。我已经运行了以下代码，但它对我不起作用。 SELECT * FROM wp_usermeta
java - 日期-姓名 id 转换
给定(例如): Dog breeds (Name) | id Labrador Retriever | A1 German Shepherd | A2 Golden Retriever |

首页

博学

6Ren·AI

商城

python - 用于提取以 Mr.|Mrs|The|DR 开头的姓名的正则表达式