gpt4 book ai didi

python - 在 Python 正则表达式搜索中匹配字符串的通配符

转载 作者:太空狗 更新时间:2023-10-29 20:36:54 24 4
gpt4 key购买 nike

我想我会编写一些快速代码来下载 Facebook 页面的“粉丝”数量。

出于某种原因,尽管我已经尝试了相当多的迭代,但我无法获得以下代码来挑选 HTML 中的粉丝数量。在这种情况下,我在网上找到的其他解决方案都没有正确匹配正则表达式。肯定有可能在两个匹配位之间有一些通配符吗?

我要匹配的文本是“6 of X fans”,其中 X 是一个页面拥有的任意数量的粉丝 - 我想得到这个数字。

我正在考虑间歇性地轮询这些数据并写入一个文件,但我还没有抽出时间去做。我也想知道这是否朝着正确的方向发展,因为代码看起来很笨重。 :)

import urllib
import re

fbhandle = urllib.urlopen('http://www.facebook.com/Microsoft')
pattern = "6 of(.*)fans" #this wild card doesnt appear to work?
compiled = re.compile(pattern)

for lines in fbhandle.readlines():
ms = compiled.match(lines)
print ms #debugging
if ms: break
#ms.group()
print ms
fbhandle.close()

最佳答案

Evan Fosmark 已经给出了很好的答案。这只是更多信息。

你有这一行:

pattern = "6 of(.*)fans"

一般来说,这不是一个好的正则表达式。如果输入文本是:

“整个粉丝群中的 99 个粉丝中有 6 个”

然后匹配组(括号内的内容)将是:

《全银河99个粉丝》

因此,我们想要一种模式,即使是像上面这样愚蠢的输入文本,也能捕获你想要的东西。

在这种情况下,是否匹配空格并不重要,因为当您将字符串转换为整数时,空格会被忽略。但是让我们编写忽略空白的模式。

使用* 通配符,可以匹配长度为零的字符串。在这种情况下,我认为你总是想要一个非空匹配,所以你想使用 + 来匹配一个或多个字符。

Python 有可用的非贪婪匹配,所以你可以用它重写。带有正则表达式的老程序可能没有非贪婪匹配,所以我也会给出一个不需要非贪婪匹配的模式。

因此,非贪婪模式:

pattern = "6 of\s+(.+?)\s+fans"

另一个:

pattern = "6 of\s+(\S+)\s+fans"

\s 表示“任何空白”,将匹配空格、制表符和一些其他字符(例如“换页”)。 \S 表示“任何非空白”并匹配 \s 匹配的任何内容。

第一个模式比你的第一个带有愚蠢输入文本的模式做得更好:

“整个粉丝群中的 99 个粉丝中有 6 个”

它将返回只有 99 的匹配组。

但试试其他愚蠢的输入文本:

“99 个疯狂粉丝中的 6 个”

它将返回 99 crazed 的匹配组。

第二个模式根本不匹配,因为“疯狂”这个词不是“粉丝”这个词。

嗯。这是最后一个模式,即使是愚蠢的输入文本也应该总是做正确的事情:

pattern = "6 of\D*?(\d+)\D*?fans"

\d 匹配任何数字('0''9')。 \D 匹配任何非数字。

这将成功匹配任何远程无歧义的内容:

“整个粉丝群中的 99 个粉丝中有 6 个”

匹配组将为 99

“99 个疯狂粉丝中的 6 个”

匹配组将为 99

“99 41 粉丝中的 6”

它不会匹配,因为那里还有第二个数字。

要了解有关 Python 正则表达式的更多信息,您可以阅读 various web pages .快速提醒一下,在 Python 解释器中,执行以下操作:

>>> import re
>>> help(re)

当您从网页“抓取”文本时,有时可能会与 HTML 代码发生冲突。一般来说,正则表达式不是忽略 HTML 或 XML 标记的好工具(参见 here );你可能会更好地使用 Beautiful Soup解析 HTML 并提取文本,然后使用正则表达式来获取您真正想要的文本。

我希望这很有趣和/或有教育意义。

关于python - 在 Python 正则表达式搜索中匹配字符串的通配符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1996482/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com