gpt4 book ai didi

Python、Beautiful Soup + 如何解析动态类?

转载 作者:行者123 更新时间:2023-11-30 23:13:06 25 4
gpt4 key购买 nike

我对 Beautiful Soup 和 Python 总体来说是新手,但我的问题是如何指定动态类 (productId)?我可以使用掩码或搜索类(class)的一部分吗,即“产品摘要*”

<li class="product_summary clearfix {productId: 247559}">

</li>

我想获取product_info以及product_summary类列表下方的product_image(src)数据,但我不知道当我的类是动态时如何find_all。希望这是有道理的。我的目标是将此数据插入 MySQL 表中,所以我的想法是我需要将所有数据存储到最高(产品摘要)级别的变量中。预先感谢您的帮助。

from bs4 import BeautifulSoup
from urllib.request import Request, urlopen

url = Request('http://www.shopwell.com/sodas/c/22', headers={'User-Agent': 'Mozilla/5.0'})
webpage = urlopen(url).read()

soup = BeautifulSoup(webpage)

product_info = soup.find_all("div", {"class": "product_info"})

for item in product_info:

detail_link = item.find("a", {"class": "detail_link"}).text

try:
detail_link_h2 = ""
detail_link_h2 = item.h2.text.replace("\n", "")
except:
pass

try:
detail_link_h3 = ""
detail_link_h3 = item.h3.text.replace("\n", "")
except:
pass
try:
detail_link_h4 = item.h4.text.replace("\n", "")
except:
pass

print(detail_link_h2 + ", " + detail_link_h3 + ", " + detail_link_h4)


product_image = soup.find_all("div", {"class": "product_image"})

for item in product_image:

img1 = item.find("img")
print(img1)

最佳答案

我认为你可以使用这样的正则表达式:

import re
product_image = soup.find_all("div", {"class": re.compile("^product_image")})

关于Python、Beautiful Soup + 如何解析动态类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29499386/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com