gpt4 book ai didi

python - BeautifulSoup,findAll 之后的 findAll?

转载 作者:太空宇宙 更新时间:2023-11-04 05:23:47 26 4
gpt4 key购买 nike

我是 Python 的新手,主要需要它来从网站获取信息。在这里,我试图从网站底部获取简短的标题,但无法完全获取。

from bfs4 import BeautifulSoup
import requests

url = "http://some-website"
r = requests.get(url)
soup = BeautifulSoup(r.content, "html.parser")

nachrichten = soup.findAll('ul', {'class':'list'})

现在我需要另一个 findAll 来从 var“nachrichten”获取所有链接/a,但我该怎么做呢?

最佳答案

如果您希望所有链接都在一个列表中,请使用带有 select 的 css 选择器:

anchors = soup.select('ul.list a')

如果您想要单独的列表:

anchors = [ ul.find_all(a) for a in soup.find_all('ul', {'class':'list'})]

此外,如果你想要 hrefs,你可以确保只找到具有 href 属性的 anchor 并提取:

hrefs = [a["href"] for a in soup.select('ul.list a[href]')]

使用 find_all 设置 href=Trueul.find_all(a, href=True)

关于python - BeautifulSoup,findAll 之后的 findAll?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39478865/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com