gpt4 book ai didi

python - 使用 SoupStrainer 进行选择性解析

转载 作者:行者123 更新时间:2023-12-04 22:51:45 25 4
gpt4 key购买 nike

我正在尝试解析来自购物网站的视频游戏名称列表。然而,因为项目列表都存储在一个标签内。
文档的 This 部分据称解释了如何仅解析文档的一部分,但我无法解决。我的代码:

from BeautifulSoup import BeautifulSoup
import urllib
import re

url = "Some Shopping Site"
html = urllib.urlopen(url).read()
soup = BeautifulSoup(html)
for a in soup.findAll('a',{'title':re.compile('.+') }):
print a.string
目前正在打印任何具有非空标题引用的标签内的字符串。但它也在侧边栏中列出了“特价”项目。如果我只能拿产品列表div,我会用一颗石头杀死2只鸟。
非常感谢。

最佳答案

哦,天哪,我是不是很傻,我正在搜索具有属性 ID = 产品的标签,但它应该是 product_list

如果有人来搜索,这里是最终代码。

from BeautifulSoup import BeautifulSoup, SoupStrainer
import urllib
import re


start = time.clock()
url = "http://someplace.com"
html = urllib.urlopen(url).read()
product = SoupStrainer('div',{'id': 'products_list'})
soup = BeautifulSoup(html,parseOnlyThese=product)
for a in soup.findAll('a',{'title':re.compile('.+') }):
print a.string

关于python - 使用 SoupStrainer 进行选择性解析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4004979/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com