gpt4 book ai didi

python - 报纸图书馆

转载 作者:行者123 更新时间:2023-11-28 19:00:24 33 4
gpt4 key购买 nike

作为使用 python 主题的绝对新手,我在使用报纸库扩展时遇到了一些困难。我的目标是定期使用报纸扩展程序下载名为“tagesschau”的德国新闻网站的所有新文章和 CNN 的所有文章,以构建我可以在几年内分析的数据堆栈。如果我做对了,我可以使用以下命令下载所有文章并将其抓取到 python 库中。

import newspaper
from newspaper import news_pool

tagesschau_paper = newspaper.build('http://tagesschau.de')
cnn_paper = newspaper.build('http://cnn.com')

papers = [tagesschau_paper, cnn_paper]
news_pool.set(papers, threads_per_source=2) # (3*2) = 6 threads total
news_pool.join()`

如果这是下载所有文章的正确方法,那么我如何在 python 之外提取和保存这些文章?或者将这些文章保存在 python 中,以便我再次重新启动 python 时可以重用它们?

感谢您的帮助。

最佳答案

以下代码会将下载的文章保存为 HTML 格式。在文件夹中,您会找到。 tagesschau_paper0.html、tagesschau_paper1.html、tagesschau_paper2.html、.....

import newspaper
from newspaper import news_pool

tagesschau_paper = newspaper.build('http://tagesschau.de')
cnn_paper = newspaper.build('http://cnn.com')

papers = [tagesschau_paper, cnn_paper]
news_pool.set(papers, threads_per_source=2)
news_pool.join()

for i in range (tagesschau_paper.size()):
with open("tagesschau_paper{}.html".format(i), "w") as file:
file.write(tagesschau_paper.articles[i].html)

注意:news_pool 没有从 CNN 得到任何东西,所以我跳过了为它写代码。如果您检查 cnn_paper.size(),结果为 0。您必须导入并使用 Source相反。

上面的代码也可以作为示例保存其他格式的文章,例如。 txt,也只有文章中需要的部分,例如作者、正文、发布日期。

关于python - 报纸图书馆,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53289440/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com