gpt4 book ai didi

python - 抓取新闻(Python 3.6,BeautifulSoup)

转载 作者:太空宇宙 更新时间:2023-11-03 15:58:16 24 4
gpt4 key购买 nike

我要刮spiegel.de/schlagzeilen获取日期下方显示的所有新闻资料(今天、昨天、几天前)。

<div class="schlagzeilen-content schlagzeilen-overview"> 

包含我想要的东西,我想,但还有一个问题:

print(data)

保留了我需要的数据,但除此之外它还附带了一堆我不想要的短语(比如集成模块的名称/HTML/CSS 的部分等等)

所以我选择了

for item in data:
print(item.text)

这个有一个非常漂亮的输出(!),但现在我错过了文章的 URL,拥有它很重要。有没有人可以帮助我?这是我的代码:

from bs4 import BeautifulSoup
import requests

website = 'http://spiegel.de/schlagzeilen'
r = requests.get(website)
soup = BeautifulSoup((r.content), "lxml")

data = soup.find_all("div", {"class": "schlagzeilen-content schlagzeilen-overview"})

for item in data:
print(item.text)

最佳答案

你可以使用 CSS selector 查找所有文章链接:

from bs4 import BeautifulSoup
import requests

website = 'http://spiegel.de/schlagzeilen'
r = requests.get(website)
soup = BeautifulSoup((r.content), "lxml")

# data = soup.find_all("div", {"class": "schlagzeilen-content schlagzeilen-overview"})
links = soup.select('div.schlagzeilen-content a')

for item in links:
print item.text, website + item['href']

一些输出:

Bayern: Sechs Tote in Gartenlaube - keine Hinweise auf Gewaltverbrechen http://spiegel.de/schlagzeilen/panorama/justiz/tote-in-gartenlaube-keine-hinweise-auf-gewaltverbrechen-a-1132268.html
Starbucks, Tesla, GE: Trumps Einreiseverbot beunruhigt US-Konzerne http://spiegel.de/schlagzeilen/wirtschaft/soziales/donald-trump-und-das-einreiseverbot-us-konzerne-zeigen-sich-besorgt-a-1132262.html
...

关于python - 抓取新闻(Python 3.6,BeautifulSoup),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41979281/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com