gpt4 book ai didi

python - 查找包含特定文本的 HTML 标记

转载 作者:行者123 更新时间:2023-11-28 01:06:30 25 4
gpt4 key购买 nike

所以我试图在网站 html 源文件中找到一个特定的字符串。

例如)如果我有以下 html 标签

<div class="rev" data="123456789adfdfdfdfadf"></div>

我希望能够找到包含 div class = "rev" 和其中的数据的特定行并打印出 "123456789adfdfdfdfadf"

但在我这样做之前,我只是想确保它找到正确的标签,但我一直得到 [] 作为输出

这是我的代码

import urllib2
from BeautifulSoup import BeautifulSoup
import re
request = urllib2.Request("http://www.adidas.co.uk/nmd_r1-shoes/BB1970.html")
request.add_header("User-Agent", "Mozilla/5.0 (Windows; U; Windows NT 5.1; es-ES; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5")

f = urllib2.urlopen(request)
soup = BeautifulSoup(f)

d = soup.findAll('div', text = re.compile('123456789adfdfdfdfadf'), attrs = {'class' : 'data'})
print d

最佳答案

您正在混合数据(作为属性)和要查找的文本。
使用给定的 div,您应该通过以下方式找到它:

print [item["data"] 
for item in soup.find_all('div', {'_class': 'rev'})
if "data" in item.attrs]

或者,更准确一点:

[item['data-bin'] 
for item in soup.find_all('div', {'_class': 'rev', attrs={'data-bin' : True}})]

关于python - 查找包含特定文本的 HTML 标记,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39529983/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com