python - 在 Python 正则表达式搜索中匹配字符串的通配符-6ren

python - 在 Python 正则表达式搜索中匹配字符串的通配符

转载作者：太空狗更新时间：2023-10-29 20:36:54

24

4

我想我会编写一些快速代码来下载 Facebook 页面的“粉丝”数量。

出于某种原因，尽管我已经尝试了相当多的迭代，但我无法获得以下代码来挑选 HTML 中的粉丝数量。在这种情况下，我在网上找到的其他解决方案都没有正确匹配正则表达式。肯定有可能在两个匹配位之间有一些通配符吗？

我要匹配的文本是“6 of X fans”，其中 X 是一个页面拥有的任意数量的粉丝 - 我想得到这个数字。

我正在考虑间歇性地轮询这些数据并写入一个文件，但我还没有抽出时间去做。我也想知道这是否朝着正确的方向发展，因为代码看起来很笨重。 :)

import urllib
import re

fbhandle = urllib.urlopen('http://www.facebook.com/Microsoft')
pattern = "6 of(.*)fans" #this wild card doesnt appear to work?
compiled = re.compile(pattern)

for lines in fbhandle.readlines():
        ms = compiled.match(lines)
        print ms #debugging
        if ms: break
#ms.group()
print ms
fbhandle.close()

最佳答案

Evan Fosmark 已经给出了很好的答案。这只是更多信息。

你有这一行:

pattern = "6 of(.*)fans"

一般来说，这不是一个好的正则表达式。如果输入文本是:

“整个粉丝群中的 99 个粉丝中有 6 个”

然后匹配组(括号内的内容)将是:

《全银河99个粉丝》

因此，我们想要一种模式，即使是像上面这样愚蠢的输入文本，也能捕获你想要的东西。

在这种情况下，是否匹配空格并不重要，因为当您将字符串转换为整数时，空格会被忽略。但是让我们编写忽略空白的模式。

使用* 通配符，可以匹配长度为零的字符串。在这种情况下，我认为你总是想要一个非空匹配，所以你想使用 + 来匹配一个或多个字符。

Python 有可用的非贪婪匹配，所以你可以用它重写。带有正则表达式的老程序可能没有非贪婪匹配，所以我也会给出一个不需要非贪婪匹配的模式。

因此，非贪婪模式:

pattern = "6 of\s+(.+?)\s+fans"

另一个:

pattern = "6 of\s+(\S+)\s+fans"

\s 表示“任何空白”，将匹配空格、制表符和一些其他字符(例如“换页”)。 \S 表示“任何非空白”并匹配 \s 不匹配的任何内容。

第一个模式比你的第一个带有愚蠢输入文本的模式做得更好:

“整个粉丝群中的 99 个粉丝中有 6 个”

它将返回只有 99 的匹配组。

但试试其他愚蠢的输入文本:

“99 个疯狂粉丝中的 6 个”

它将返回 99 crazed 的匹配组。

第二个模式根本不匹配，因为“疯狂”这个词不是“粉丝”这个词。

嗯。这是最后一个模式，即使是愚蠢的输入文本也应该总是做正确的事情:

pattern = "6 of\D*?(\d+)\D*?fans"

\d 匹配任何数字('0' 到 '9')。 \D 匹配任何非数字。

这将成功匹配任何远程无歧义的内容:

“整个粉丝群中的 99 个粉丝中有 6 个”

匹配组将为 99。

“99 个疯狂粉丝中的 6 个”

匹配组将为 99。

“99 41 粉丝中的 6”

它不会匹配，因为那里还有第二个数字。

要了解有关 Python 正则表达式的更多信息，您可以阅读 various web pages .快速提醒一下，在 Python 解释器中，执行以下操作:

>>> import re
>>> help(re)

当您从网页“抓取”文本时，有时可能会与 HTML 代码发生冲突。一般来说，正则表达式不是忽略 HTML 或 XML 标记的好工具(参见 here )；你可能会更好地使用 Beautiful Soup解析 HTML 并提取文本，然后使用正则表达式来获取您真正想要的文本。

我希望这很有趣和/或有教育意义。

关于python - 在 Python 正则表达式搜索中匹配字符串的通配符，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1996482/

24

4

0

文章推荐： c++ - Visual Studio 2013 因非静态数据成员初始化而崩溃

文章推荐： c# - 使用命令行解析器库的列表/数组的默认值

文章推荐： c# - 64 位类型库和 32 位类型库不同步

mysql - (mySql)查询匹配/精确字符串/[通配符]/精确字符串/[通配符]等？
我的网址看起来像 '/api/comments/languages/124/component/segment_translation/2' 我知道 url 的哪些部分是静态的；并且是动态的 - 并且
Notepad++ 通配符
如何使用通配符查找和替换主域之后的所有字符(包括“/”字符)？例如，我有以下 4 行: intersport-schaeftlmaier.de/ weymouthhondapowersports.c
Jquery 通配符
我有 3 个控件，其 ID 为 control_1、control_2、control_3。我想隐藏这些控件。目前我正在使用这个: $('#control_1').hide(); $('#cont
MySQL如何LIKE匹配参数+通配符？
我有一个旧歌曲数据库，我想将其转移到新数据库。我的旧数据库看起来像这样，多个值被填充在一个用逗号分隔的字段中 SONG id | title | artist |
MySQL WHERE IN 通配符
首先，我知道downloads表没有标准化。我有这两个表: downloads map | author 1 | Nikola 2 | Nikola George 和 mappers mapper_
详解SQL 通配符
通配符可用于替代字符串中的任何其他字符。 SQL 通配符在 SQL 中，通配符与 SQL LIKE 操作符一起使用。 SQL 通配符用于搜索表中的数据。在 SQL 中，可使用以下通配符：
bash - 由引号和未引号部分组成的字符串中的通配符扩展(通配符)
我在 shell 脚本中有一行看起来像这样: java -jar "$dir/"*.jar ，因为我只想执行该文件夹中恰好命名的 jar 文件。但这并不像我预期的那样有效。我收到错误消息: Error
Powershell:Where-Object 通配符
我想在 Active Directory 用户的所有属性中搜索特定电话号码/分机号。我可以像这样获取所有属性: get-aduser joesmith -Properties * 但我想过滤结果，例
将文件名作为参数传递时的 powershell 通配符
我在运行 Python 3在 Windows 机器上使用 PowerShell .我正在尝试执行一个 Python 文件，然后使用通配符将多个文件(file1.html、file2.html 等)作为
javascript - getElementById() 通配符
我有一个 div，并且有一些处于未定义级别的子节点。现在我必须将每个元素的 ID 更改为一个 div。如何实现？我想，因为它们有向上的ID，所以如果父级是id='path_test_maindiv
Lua 比较运算符(通配符？)
我是 Lua 的新手，所以我现在正在学习运算符部分。在 Lua 中是否有与字符串一起使用的通配符？我有 PHP 背景，我实际上是在尝试编写以下代码: --scan the directory's f
java - 通配符，java中的通用
我在 countList 方法上遇到编译时错误。 public static void countList( List list, int count ){ for( int i =
Java、命名Bean、通配符？
我们需要在运行时检索多个类实例，而无需手动维护所有可用类型的列表。可能的方法: 检索带有@xy注释的每种类型的实例检索每种类型的实例实现接口(interface)iXY 检索每种类型的实例，命名如
用于完成字符串的 Prolog 通配符
我目前陷入了序言问题。到目前为止我有: film(Title) :- movie(Title,_,_).(其中“movie(T,_,_,)”是对我的引用数据库) namesearch(Title,
R gsub 通配符
我想从字符表达式(在 R 中)中删除一个“*”。在阅读帮助页面并尝试谷歌后，我无法充分理解 gsub 的复杂性。有人可以建议我该怎么做吗？谢谢，乔纳森。最佳答案您需要转义两次:一次针对 R，一
选择器中的 jQuery 通配符
在我的 DOM 中，我有一个动态生成对话框的表。 DOM 中的对话框将具有以下形式的 ID: id="page:form:0:dlg" id="page:form:1:dlg" id="page:fo
Java 泛型 - 通配符
我是 Java 新手，并且已经陷入这样一种情况，很明显我误解了它如何处理泛型，但是阅读教程和搜索 stackoverflow 并没有(至少到目前为止)让我清楚我怀疑我滥用了通配符。需要注意的是，我有
图像源中的 jQuery 通配符
我想使用 jQuery 更改单击时图像的 src 属性。这是 HTML: View 2 在 img src 中，我想将“a”替换为“b”，但我的问题是我想忽略它前面的“1”，因为它也可能看起来像这样
字段中的 Mysql 通配符
我有一个 mysql 数据库，我的表是: Name | passcode ---------------------- hi* | 1111 ------------------
特定数量字符的 C# 通配符
我想选择所有在星号所在位置具有确切 4 个“未知”字符的文档:(例如“****”可能是“2018”) foreach (string s in Directory.GetFiles(@"C:\User

首页

博学

6Ren·AI

商城

python - 在 Python 正则表达式搜索中匹配字符串的通配符