gpt4 book ai didi

python - 文件中的模式匹配

转载 作者:太空宇宙 更新时间:2023-11-03 19:01:56 25 4
gpt4 key购买 nike

我正在尝试在文件中查找多个匹配项。我使用以下代码:

f = open('/home/evi.nastou/Documenten/filename')
text = f.read()
#print text
urls = re.findall(r"_8o _8r lfloat\" href=\"(.+?)\" onclick=", text)
for url in urls:
print url.replace('\\','')

但它不返回任何结果。

另一方面,当我将整个文本传递到变量中时,它确实找到了模式。有人可以帮我吗?

附:文件中的部分文本:

for (;;);{"__ar":1,"payload":null,"domops":[["replace","#detailedsearch_more_pager",f‌​alse,{"__html":"\u003Cdiv>\u003Cdiv class=\"mbm detailedsearch_result\">\u003Cdiv class=\"clearfix\">\u003Ca class=\"_8o _8r lfloat\" href=\"http://www.facebook.com/name\" onclick=\"if (event.button == 0) { search_logged_ajax({"ab":"T_TA_RANKING_1","cururl&‌​quot;:"http:\/\/www.facebook.com\\

最佳答案

问题似乎出在你的正则表达式上。

使用这个:

r'href\s*=\s*(.+)\s+onclick\s*='

代码:

import re
text = open('test.txt').read() # contains your string

urls = re.findall(r'href\s*=\s*(.+?)\s+onclick\s*=', text)
for url in urls:
print url.replace('\\','')

输出:

"http://www.facebook.com/name"

我的正则表达式的解释:

href    # match href
\s* # match 0 or more spaces
= # match =
\s* # match 0 or more spaces
(.+?) # match any character (non - greedy)
\s+ # match 1 or more spaces
onclick # match onclick
\s* # match 0 or more spaces
= # match =

关于python - 文件中的模式匹配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15809708/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com