- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
作为使用 python 主题的绝对新手,我在使用报纸库扩展时遇到了一些困难。我的目标是定期使用报纸扩展程序下载名为“tagesschau”的德国新闻网站的所有新文章和 CNN 的所有文章,以构建我可以在几年内分析的数据堆栈。如果我做对了,我可以使用以下命令下载所有文章并将其抓取到 python 库中。
import newspaper
from newspaper import news_pool
tagesschau_paper = newspaper.build('http://tagesschau.de')
cnn_paper = newspaper.build('http://cnn.com')
papers = [tagesschau_paper, cnn_paper]
news_pool.set(papers, threads_per_source=2) # (3*2) = 6 threads total
news_pool.join()`
如果这是下载所有文章的正确方法,那么我如何在 python 之外提取和保存这些文章?或者将这些文章保存在 python 中,以便我再次重新启动 python 时可以重用它们?
感谢您的帮助。
最佳答案
以下代码会将下载的文章保存为 HTML 格式。在文件夹中,您会找到。 tagesschau_paper0.html、tagesschau_paper1.html、tagesschau_paper2.html、.....
import newspaper
from newspaper import news_pool
tagesschau_paper = newspaper.build('http://tagesschau.de')
cnn_paper = newspaper.build('http://cnn.com')
papers = [tagesschau_paper, cnn_paper]
news_pool.set(papers, threads_per_source=2)
news_pool.join()
for i in range (tagesschau_paper.size()):
with open("tagesschau_paper{}.html".format(i), "w") as file:
file.write(tagesschau_paper.articles[i].html)
注意:news_pool
没有从 CNN 得到任何东西,所以我跳过了为它写代码。如果您检查 cnn_paper.size()
,结果为 0
。您必须导入并使用 Source相反。
上面的代码也可以作为示例保存其他格式的文章,例如。 txt,也只有文章中需要的部分,例如作者、正文、发布日期。
关于python - 报纸图书馆,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53289440/
尝试安装包失败并出现以下错误。我用谷歌搜索并安装了 setuptools - 仍然遇到同样的错误。 命令:pip install newspaper Collecting nltk==2.0.5 (f
我正在尝试使用 Python 库 newspaper来自 Wayback Machine 的文件,存储已存档的旧版本网站。理论上,可以从这些文件中查询和下载旧的新闻文章。 例如,下面的代码查询文件 C
因此,基本上我的问题是:报亭工具包可以在单个应用程序中用于几种不同的杂志订阅吗?从wwdc 504 session 来看,这并不是真的。以我的理解,杂志/报纸订阅似乎与1个应用程序结合在一起。例如,U
我的 wordpress 主题中的 css 图像宽度样式有问题。图像宽度设置为 100%,但图像以其原始大小显示。并且溢出以某种方式被隐藏了。但是我无法弄清楚是哪个元素导致了这种行为以及如何解决它?
有没有什么 CSS 技术或好的 js 技术来布局内容,让你有一个像“报纸”一样的页面。给定一个包含一堆内容的 div(或其他),将该内容拆分为 N 列,总宽度为一些预定义的宽度。 假设 N = 3,假
我正在尝试从我可以通过网络(例如 Safari)浏览的文章中下载文本。 错误是: newspaper.article.ArticleException: Article `download()` fa
我是一名优秀的程序员,十分优秀!