- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我想我会编写一些快速代码来下载 Facebook 页面的“粉丝”数量。
出于某种原因,尽管我已经尝试了相当多的迭代,但我无法获得以下代码来挑选 HTML 中的粉丝数量。在这种情况下,我在网上找到的其他解决方案都没有正确匹配正则表达式。肯定有可能在两个匹配位之间有一些通配符吗?
我要匹配的文本是“6 of X fans”,其中 X 是一个页面拥有的任意数量的粉丝 - 我想得到这个数字。
我正在考虑间歇性地轮询这些数据并写入一个文件,但我还没有抽出时间去做。我也想知道这是否朝着正确的方向发展,因为代码看起来很笨重。 :)
import urllib
import re
fbhandle = urllib.urlopen('http://www.facebook.com/Microsoft')
pattern = "6 of(.*)fans" #this wild card doesnt appear to work?
compiled = re.compile(pattern)
for lines in fbhandle.readlines():
ms = compiled.match(lines)
print ms #debugging
if ms: break
#ms.group()
print ms
fbhandle.close()
最佳答案
Evan Fosmark 已经给出了很好的答案。这只是更多信息。
你有这一行:
pattern = "6 of(.*)fans"
一般来说,这不是一个好的正则表达式。如果输入文本是:
“整个粉丝群中的 99 个粉丝中有 6 个”
然后匹配组(括号内的内容)将是:
《全银河99个粉丝》
因此,我们想要一种模式,即使是像上面这样愚蠢的输入文本,也能捕获你想要的东西。
在这种情况下,是否匹配空格并不重要,因为当您将字符串转换为整数时,空格会被忽略。但是让我们编写忽略空白的模式。
使用*
通配符,可以匹配长度为零的字符串。在这种情况下,我认为你总是想要一个非空匹配,所以你想使用 +
来匹配一个或多个字符。
Python 有可用的非贪婪匹配,所以你可以用它重写。带有正则表达式的老程序可能没有非贪婪匹配,所以我也会给出一个不需要非贪婪匹配的模式。
因此,非贪婪模式:
pattern = "6 of\s+(.+?)\s+fans"
另一个:
pattern = "6 of\s+(\S+)\s+fans"
\s
表示“任何空白”,将匹配空格、制表符和一些其他字符(例如“换页”)。 \S
表示“任何非空白”并匹配 \s
不匹配的任何内容。
第一个模式比你的第一个带有愚蠢输入文本的模式做得更好:
“整个粉丝群中的 99 个粉丝中有 6 个”
它将返回只有 99
的匹配组。
但试试其他愚蠢的输入文本:
“99 个疯狂粉丝中的 6 个”
它将返回 99 crazed
的匹配组。
第二个模式根本不匹配,因为“疯狂”这个词不是“粉丝”这个词。
嗯。这是最后一个模式,即使是愚蠢的输入文本也应该总是做正确的事情:
pattern = "6 of\D*?(\d+)\D*?fans"
\d
匹配任何数字('0'
到 '9'
)。 \D
匹配任何非数字。
这将成功匹配任何远程无歧义的内容:
“整个粉丝群中的 99 个粉丝中有 6 个”
匹配组将为 99
。
“99 个疯狂粉丝中的 6 个”
匹配组将为 99
。
“99 41 粉丝中的 6”
它不会匹配,因为那里还有第二个数字。
要了解有关 Python 正则表达式的更多信息,您可以阅读 various web pages .快速提醒一下,在 Python 解释器中,执行以下操作:
>>> import re
>>> help(re)
当您从网页“抓取”文本时,有时可能会与 HTML 代码发生冲突。一般来说,正则表达式不是忽略 HTML 或 XML 标记的好工具(参见 here );你可能会更好地使用 Beautiful Soup解析 HTML 并提取文本,然后使用正则表达式来获取您真正想要的文本。
我希望这很有趣和/或有教育意义。
关于python - 在 Python 正则表达式搜索中匹配字符串的通配符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1996482/
我的网址看起来像 '/api/comments/languages/124/component/segment_translation/2' 我知道 url 的哪些部分是静态的;并且是动态的 - 并且
如何使用通配符查找和替换主域之后的所有字符(包括“/”字符)? 例如,我有以下 4 行: intersport-schaeftlmaier.de/ weymouthhondapowersports.c
我有 3 个控件,其 ID 为 control_1、control_2、control_3。 我想隐藏这些控件。 目前我正在使用这个: $('#control_1').hide(); $('#cont
我有一个旧歌曲数据库,我想将其转移到新数据库。我的旧数据库看起来像这样,多个值被填充在一个用逗号分隔的字段中 SONG id | title | artist |
首先,我知道downloads表没有标准化。 我有这两个表: downloads map | author 1 | Nikola 2 | Nikola George 和 mappers mapper_
通配符可用于替代字符串中的任何其他字符。 SQL 通配符 在 SQL 中,通配符与 SQL LIKE 操作符一起使用。 SQL 通配符用于搜索表中的数据。 在 SQL 中,可使用以下通配符:
我在 shell 脚本中有一行看起来像这样: java -jar "$dir/"*.jar ,因为我只想执行该文件夹中恰好命名的 jar 文件。但这并不像我预期的那样有效。我收到错误消息: Error
我想在 Active Directory 用户的所有属性中搜索特定电话号码/分机号。 我可以像这样获取所有属性: get-aduser joesmith -Properties * 但我想过滤结果,例
我在运行 Python 3在 Windows 机器上使用 PowerShell .我正在尝试执行一个 Python 文件,然后使用通配符将多个文件(file1.html、file2.html 等)作为
我有一个 div,并且有一些处于未定义级别的子节点。 现在我必须将每个元素的 ID 更改为一个 div。如何实现? 我想,因为它们有向上的ID,所以如果父级是id='path_test_maindiv
我是 Lua 的新手,所以我现在正在学习运算符部分。在 Lua 中是否有与字符串一起使用的通配符? 我有 PHP 背景,我实际上是在尝试编写以下代码: --scan the directory's f
我在 countList 方法上遇到编译时错误。 public static void countList( List list, int count ){ for( int i =
我们需要在运行时检索多个类实例,而无需手动维护所有可用类型的列表。 可能的方法: 检索带有@xy注释的每种类型的实例 检索每种类型的实例实现接口(interface)iXY 检索每种类型的实例,命名如
我目前陷入了序言问题。 到目前为止我有: film(Title) :- movie(Title,_,_).(其中“movie(T,_,_,)”是对我的引用数据库) namesearch(Title,
我想从字符表达式(在 R 中)中删除一个“*”。在阅读帮助页面并尝试谷歌后,我无法充分理解 gsub 的复杂性。有人可以建议我该怎么做吗? 谢谢, 乔纳森。 最佳答案 您需要转义两次:一次针对 R,一
在我的 DOM 中,我有一个动态生成对话框的表。 DOM 中的对话框将具有以下形式的 ID: id="page:form:0:dlg" id="page:form:1:dlg" id="page:fo
我是 Java 新手,并且已经陷入这样一种情况,很明显我误解了它如何处理泛型,但是阅读教程和搜索 stackoverflow 并没有(至少到目前为止)让我清楚我怀疑我滥用了通配符。需要注意的是,我有
我想使用 jQuery 更改单击时图像的 src 属性。这是 HTML: View 2 在 img src 中,我想将“a”替换为“b”,但我的问题是我想忽略它前面的“1”,因为它也可能看起来像这样
我有一个 mysql 数据库,我的表是: Name | passcode ---------------------- hi* | 1111 ------------------
我想选择所有在星号所在位置具有确切 4 个“未知”字符的文档:(例如“****”可能是“2018”) foreach (string s in Directory.GetFiles(@"C:\User
我是一名优秀的程序员,十分优秀!