python - 报纸图书馆-6ren

python - 报纸图书馆

转载作者：行者123 更新时间：2023-11-28 19:00:24

33

4

作为使用 python 主题的绝对新手，我在使用报纸库扩展时遇到了一些困难。我的目标是定期使用报纸扩展程序下载名为“tagesschau”的德国新闻网站的所有新文章和 CNN 的所有文章，以构建我可以在几年内分析的数据堆栈。如果我做对了，我可以使用以下命令下载所有文章并将其抓取到 python 库中。

import newspaper
from newspaper import news_pool

tagesschau_paper = newspaper.build('http://tagesschau.de')
cnn_paper = newspaper.build('http://cnn.com')

papers = [tagesschau_paper, cnn_paper]
news_pool.set(papers, threads_per_source=2) # (3*2) = 6 threads total
news_pool.join()`

如果这是下载所有文章的正确方法，那么我如何在 python 之外提取和保存这些文章？或者将这些文章保存在 python 中，以便我再次重新启动 python 时可以重用它们？

感谢您的帮助。

最佳答案

以下代码会将下载的文章保存为 HTML 格式。在文件夹中，您会找到。 tagesschau_paper0.html、tagesschau_paper1.html、tagesschau_paper2.html、.....

import newspaper
from newspaper import news_pool

tagesschau_paper = newspaper.build('http://tagesschau.de')
cnn_paper = newspaper.build('http://cnn.com')

papers = [tagesschau_paper, cnn_paper]
news_pool.set(papers, threads_per_source=2)
news_pool.join()

for i in range (tagesschau_paper.size()): 
    with open("tagesschau_paper{}.html".format(i), "w") as file:
    file.write(tagesschau_paper.articles[i].html)

注意:news_pool 没有从 CNN 得到任何东西，所以我跳过了为它写代码。如果您检查 cnn_paper.size()，结果为 0。您必须导入并使用 Source相反。

上面的代码也可以作为示例保存其他格式的文章，例如。 txt，也只有文章中需要的部分，例如作者、正文、发布日期。

关于python - 报纸图书馆，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53289440/

33

4

0

文章推荐： python - Alexa Lambda 函数获取用户的全名

文章推荐： html - 强制分为 2 列的列表 - IE7

文章推荐： css - 固定 div 内的滚动条

文章推荐： javascript - 将参数从 jsonresult 传递到 actionresult

Python包(报纸)安装报错
尝试安装包失败并出现以下错误。我用谷歌搜索并安装了 setuptools - 仍然遇到同样的错误。命令:pip install newspaper Collecting nltk==2.0.5 (f
带有网络存档的 Python 报纸(回归机器)
我正在尝试使用 Python 库 newspaper来自 Wayback Machine 的文件，存储已存档的旧版本网站。理论上，可以从这些文件中查询和下载旧的新闻文章。例如，下面的代码查询文件 C
ios - 书报摊套件，可在一个应用程序中提供多个杂志/报纸
因此，基本上我的问题是:报亭工具包可以在单个应用程序中用于几种不同的杂志订阅吗？从wwdc 504 session 来看，这并不是真的。以我的理解，杂志/报纸订阅似乎与1个应用程序结合在一起。例如，U
html - 报纸 Wordpress 主题中移动设备上的图像宽度 100%
我的 wordpress 主题中的 css 图像宽度样式有问题。图像宽度设置为 100%，但图像以其原始大小显示。并且溢出以某种方式被隐藏了。但是我无法弄清楚是哪个元素导致了这种行为以及如何解决它？
css - 文本的 HTML 流体多列布局(报纸)
有没有什么 CSS 技术或好的 js 技术来布局内容，让你有一个像“报纸”一样的页面。给定一个包含一堆内容的 div(或其他)，将该内容拆分为 N 列，总宽度为一些预定义的宽度。假设 N = 3，假
python - 报纸.文章.文章异常 : Article `download()` failed with 403 Client Error: Forbidden for url
我正在尝试从我可以通过网络(例如 Safari)浏览的文章中下载文本。错误是: newspaper.article.ArticleException: Article `download()` fa

首页

博学

6Ren·AI

商城

python - 报纸图书馆