gpt4 book ai didi

python - 网络抓取以形成新闻数据库

转载 作者:太空宇宙 更新时间:2023-11-04 08:12:28 26 4
gpt4 key购买 nike

<分区>

我正在为不同的新闻媒体创建一个网络抓取工具。我正在尝试为 The Hindu 报纸创建一个。

我想从其文件中提到的各种链接获取新闻。假设我想在第二天通过提到的链接获取新闻:http://www.thehindu.com/archive/web/2010/06/19/ 即 2010 年 6 月 19 日。

现在我写了下面几行代码:

import mechanize
from bs4 import BeautifulSoup

url = "http://www.thehindu.com/archive/web/2010/06/19/"

br = mechanize.Browser()
htmltext = br.open(url).read()

articletext = ""
soup = BeautifulSoup(htmltext)
for tag in soup.findAll('li', attrs={"data-section":"Business"}):
articletext += tag.contents[0]
print articletext

但我无法获得所需的结果。我基本上卡住了。谁能帮我解决一下?

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com