gpt4 book ai didi

python - 从 Python 中的任何站点抓取链接标题的一般方法?

转载 作者:行者123 更新时间:2023-11-28 01:02:15 25 4
gpt4 key购买 nike

有没有一种“通用”的方法可以用 Python 从任何网站上抓取链接标题?例如,如果我使用以下代码:

from urllib.request import url open
from bs4 import BeautifulSoup

site = "https://news.google.com"
html = urlopen(site)
soup = BeautifulSoup(html.read(), 'lxml');

titles = soup.findAll('span', attrs = { 'class' : 'titletext' })
for title in titles:
print(title.contents)

我能够从 news.google.com 中提取几乎所有标题。但是,如果我在 www.yahoo.com 上使用相同的代码,由于 HTML 格式不同,我无法使用。

是否有更通用的方法来执行此操作以使其适用于大多数网站?

最佳答案

不,每个站点都是不同的,如果您制作一个更通用的爬虫,它会获得更多数据,这些数据并不像每个标题那样具体。

例如,以下将从 google 获取每个标题,也可能从 yahoo 获取它们。

titles = soup.find_all('a') 
for title in titles:
print(title.get_text())

但是,它还会为您提供所有 header 和其他链接,这会使您的结果变得困惑。 (该 Google 页面上大约有 150 个链接不是标题)

关于python - 从 Python 中的任何站点抓取链接标题的一般方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41577918/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com