gpt4 book ai didi

python - 通过不同的方法使用 beautiful soup 获取 href

转载 作者:行者123 更新时间:2023-12-01 02:22:28 25 4
gpt4 key购买 nike

我正在尝试抓取一个网站。我学会了从两种资源中抓取:一种使用 tag.get('href')a 标记获取 href,另一种使用 tag[' href'] 得到相同的结果。据我了解,他们都做同样的事情。但是当我尝试这段代码时:

link_list = [l.get('href') for l in soup.find_all('a')]

它适用于 .get 方法,但不适用于字典访问方式。

link_list = [l['href'] for l in soup.find_all('a')]

这会引发KeyError。我对抓取还很陌生,所以如果这是一个愚蠢的行为,请原谅。

编辑 - 这两种方法都适用于 find 方法而不是 find_all。

最佳答案

您可以让 BeautifulSoup 仅查找具有现有 href 属性的链接。 测试

您可以通过两种常见方式来完成此操作,即通过 find_all():

link_list = [a['href'] for a in soup.find_all('a', href=True)]

或者,使用CSS selector :

link_list = [a['href'] for a in soup.select('a[href]')]

关于python - 通过不同的方法使用 beautiful soup 获取 href,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47819266/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com