澳大利亚电话号码的 Python RegEx - 漏报 - 同一子字符串中有 2 个匹配项-6ren

澳大利亚电话号码的 Python RegEx - 漏报 - 同一子字符串中有 2 个匹配项

转载作者：行者123 更新时间：2023-12-01 02:14:20

27

4

我正在尝试使用 Python 和 RegEx 从网页中提取电话号码

澳大利亚数字格式

+61(国际代码 - 下面显示为“i”)

02、03、07 或 08(州代码 - 在下面显示为“s”)

1234-5678(8 位本地号码 - 显示为“x”)

格式的常见变体(按通用性顺序排列):

格式 1:ss xxxx xxxx(例如 02 1234 5678)

格式 2:+ii s xxxx xxxx(例如 +61 2 1234 5678)(注意此处删除了第一个 's' 数字)

格式 3:(很少见)+ii (s)s xxxx-xxxx(例如 +61 (0)2 1234 5678

我的正则表达式:

re.findall(r'[0][2]\d{8}|[0][3]\d{8}|[0][7]\d{8}|[0][8]\d{8}|[6][1][2]\d{8}|[6][1][3]\d{8}|[6][1][7]\d{8}|[6][1][8]\d{8}|[0][4]\d{8}|[6][1][4]\d{8}|[1][3][0][0]\d{6}|[1][8][0][0]\d{6}', re.sub(r'\W+', '', sample_text))

适用于简单的示例文本:

sample_text = "610212345678ABC##610312345678ABC##610712345678ABC##610812345678ABC##0212345678ABC##0312345678ABC##0712345678ABC##0812345678ABC##61212345678ABC##61312345678ABC##61712345678ABC##61812345678ABC##0412345678ABC##61412345678ABC##130012345678ABC##180012345678ABC##"

结果:

['0212345678', '0312345678', '0712345678', '0812345678', '0212345678', '0312345678', '0712345678', '0812345678', '61212345678', '61312345678', '61712345678', '61812345678', '0412345678', '61412345678', '1300123456', '1800123456']

目标

以 http://www.outware.com.au/contact 为例...

页面上的 2 个实际数字是:

+61 (0)3 8684 9912 和 +61 (0)2 8064 7043(这两个号码出现两次 - 一次在页面的主要部分，一次在页脚)

问题

#take HTML markup from body tags
b = driver.find_element_by_css_selector('body').text

#remove all non-alpha + white space.
b = re.sub(r'\W+', '', b)

结果:

"PORTFOLIOINNOVATIONSERVICESCAREERSINSIGHTSNEWSABOUTCONTACTCONTACTOUTWAREMelbourneLe......AFRFast100Nov92017EXPLOREOUTWAREPortfolioInnovationWorkingatOutwareAboutSitemapCONNECTMELBOURNELevel3469LaTrobeStMelbourneVIC3000610386849912SYDNEYLevel41SmailStUltimoNSW2007610280647043"

现在，如果我将正则表达式应用于该字符串

re.findall(r'[0][2]\d{8}|[0][3]\d{8}|[0][7]\d{8}|[0][8]\d{8}|[6][1][2]\d{8}|[6][1][3]\d{8}|[6][1][7]\d{8}|[6][1][8]\d{8}|[0][4]\d{8}|[6][1][4]\d{8}|[1][3][0][0]\d{6}|[1][8][0][0]\d{6}', re.sub(r'\W+', '', b))

结果:

[u'0386849912'、u'0761028064'、u'0386849912'、u'0761028064']

我收到误报，因为我已将邮政编码“NSW2007”连接到电话号码的开头。

我认为因为正则表达式已经解析了与“0761028064”匹配的“NSW2007610280647043”的第一部分，所以它不匹配“0280647043”，它也是同一子字符串的一部分

我实际上并不介意误报(即得到“0761028064”)，但我确实需要解决误报(即没有得到“0280647043”)

我知道这里有一些正则表达式专家可以提供帮助。 :-)

请帮忙!!

最佳答案

在使用正则表达式之前不要搜索/替换任何文本。这将使您的输入无法使用。试试这个:

(?:(?:\+?61 )?(?:0|$0$)?)?[2378]\d{4}[ -]?\d{4}

https://regex101.com/r/1Q4HuD/3

关于澳大利亚电话号码的 Python RegEx - 漏报 - 同一子字符串中有 2 个匹配项，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48470964/

27

4

0

文章推荐： python - 使用 cx_freeze 的 .py 到 .exe 会导致错误

文章推荐： r - 我可以判断 R 脚本是否在 littler 下运行？

文章推荐： gradle - 无法发布到 sonarqube

文章推荐： .net - 我必须在 DbContext 上创建显式 DbSet 属性吗？

Javascript 表单验证(电话)
我有一个包含姓名、电子邮件和内容文本区域的表单。一切正常，但当我尝试为手机号码添加 1 个表单输入时，表单不会提交。 Javascript: function hgsubmit() { i
计划，电话/抄送
所以我正试图在 Scheme 中找出整个 call/cc 的东西。下面是我正在使用的代码: (+ 1 (call/cc (lambda (k) (if (number? k)
计划，电话/抄送
所以我正试图在 Scheme 中找出整个 call/cc 的东西。下面是我正在使用的代码: (+ 1 (call/cc (lambda (k) (if (number? k)
java - 平板电脑可以打电话吗？ (电话)
我在 list 中有权限: 检查电话是否正在使用的代码可能会为无法接听电话的平板电脑等设备启动安全异常。所以，我制作了这个方法来检查是否设备可以使用 TelephonyManager: priva
php - Facebook社交登录获取用户名、邮箱、电话
我想知道 facebook API 允许 PHP 网页提取以下用户数据的先决条件是什么: 姓名电子邮件电话据我了解，提取电话号码需要您的网站在 facebook/Websense 的白名单中吗？
iphone - 从我的应用程序中调用 iPhone 电话
我如何从我的应用程序调用特定号码的电话？给我一些执行此任务的逻辑或代码... 最佳答案使用 UIApplication 的 openURL: 方法: [[UIApplication sharedAp
uri - 电话 URI 中的加号是否应该编码？
在 URI 中，空格可以编码为 + .既然如此，那么在创建具有国际前缀的 tel URI 时是否应该对前导加号进行编码？哪个更好？两者在实践中都有效吗？ Call me Call me 最佳答案不
soap - 使用失眠症来打 SOAP 电话
我正在尝试使用 Insomnia 调用 SOAP 电话 - 特别是试图让帖子成功。我将 URL 定义为端点，并将正文类型作为带有 SOAP 内容(信封、标题、正文)的 XML。我在标题中定义了用户 I
networking - 是否可以在没有操作系统集成的情况下将数据从服务器推送到客户端(电话、计算机)
服务器有没有办法将一些数据无线无缝地推送到客户端，可能是 Windows(电话)、iPhone、Mac 或 Android 设备，没有任何操作系统集成？如果是这样，最好的设计模式是什么，最好的技术是
JavaScript Onclick 电话/电子邮件验证功能不起作用
我有一个搜索字段，我希望用户能够通过电话或电子邮件进行搜索。但是，我的 onclick 事件没有触发。我已经尝试过控制台工具，但似乎无法通过那里进行调试。 {% from "_form
websocket - 在新的弹出窗口中接听 Twilio 电话
如果重新加载接收调用的浏览器窗口，我将面临实时 Twilio 调用被丢弃的情况。有没有办法在不影响实时通话的情况下克服这种挫折？最佳答案 Twilio 布道者在这里。根据您的问题，我假设您使用的是
javascript - 在我的案例中如何解决我的 promise 电话
我试图在我的服务中减少我的 promise 对象。我有类似的东西 angular.module('myApp').service('testService', ['Employees','$q',
java - 如何调用 SIP 电话
我想在我的java应用程序中构建一个电话调用器。为此，我使用了 JAIN-SIP 库。第一次 INVITE 后，系统需要代理身份验证。第二个邀请是在“AuthenticationHelperImpl.
android - 电话 session 应用程序
两天前我正在开发一个 VOIP 应用程序，并成功地使用 Sinch 实现了一个普通的应用程序到应用程序调用。 .该应用程序运行良好。当我开始时，我在他们的文档中看到他们支持电话 session 。现
java - 驱动 Api 电话
我正在尝试创建一个 java 程序，它将创建 excel 文件并将其上传到谷歌驱动器中。上传后我需要它来授予权限。我已经完成了所有这些，但问题在于尝试将 excel 文件转换为 google 文件，以
Android SIP 电话 session
我想使用 Android Sip 进行电话 session .那可能吗？有人可以举一个有效的例子吗？使用该库是否有任何限制，比如它可以在 3G 或 4G 上工作？最佳答案当前的 Android S
java - 以编程方式接听 Android 电话
是否可以通过编程方式在 android 中接听电话？我发现有些地方不可能，但后来安装了应用程序 https://play.google.com/store/apps/details?id=com.a
javascript - 为什么我会收到未定义的 'children' 电话？
我试图在单击导航中的某个按钮后将一个类附加到 div。 $navButtons.on('click', navigationClick); // liseten to the navigation a
iphone - Monotouch 电话/通话状态？
在 Monotouch 中是否有任何方法可以读取电话或调用者服务的当前状态？我正在尝试寻找某种方式来读取通话是否处于事件状态或通话是否处于等待状态等。用谷歌搜索没有找到任何结果。希望运行一些代码
ios - 自动输入姓名/电话/电子邮件等
我可能正在搜索错误的内容，这可能解释了为什么我只能找到有关设置密码自动填充的信息。我正在寻找用户能够在应用程序中输入电子邮件、电话、名字和姓氏的功能，就像某些网站能够做到的那样，选项出现在键盘上方。

首页

博学

6Ren·AI

商城

澳大利亚电话号码的 Python RegEx - 漏报 - 同一子字符串中有 2 个匹配项