带有网络存档的 Python 报纸(回归机器)-6ren

带有网络存档的 Python 报纸(回归机器)

转载作者：行者123 更新时间：2023-12-04 13:48:04

24

4

我正在尝试使用 Python 库 newspaper来自 Wayback Machine 的文件，存储已存档的旧版本网站。理论上，可以从这些文件中查询和下载旧的新闻文章。
例如，下面的代码查询文件 CNBC 对于特定的存档日期。

import newspaper
url = 'http://web.archive.org/web/20161201123529/http://www.cnbc.com/'
paper = newspaper.build(url, memoize_articles = False )

尽管存档的网站本身包含指向 2016 年 12 月 1 日的实际新闻文章的链接，但报纸模块似乎没有提取它们。相反，您会获得如下网址:

https://blog.archive.org/2016/10/23/defining-web-pages-web-sites-and-web-captures/

这些不是来自这个 CNBC 存档版本的实际文章。然而，报纸与今天的 CNBC 版本配合得很好。 .
我想它会因为 url 的格式(包含两个 http s)而感到困惑。有人对如何从 Wayback Machine 中提取文章有任何建议吗？文件？

最佳答案

这是一个有趣的问题，我将把它添加到我的 Newspaper Usage Overview 中。 GitHub 上提供的文档。
我尝试使用 news.build，但我无法让它正常工作，所以我使用了报纸 Source。

from time import sleep
from random import randint
from newspaper import Config
from newspaper import Source

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:78.0) Gecko/20100101 Firefox/78.0'

config = Config()
config.browser_user_agent = USER_AGENT
config.request_timeout = 10

wayback_cnbc = Source(url='https://web.archive.org/web/20180301012621/https://www.cnbc.com/', config=config,
                  memoize_articles=False, language='en', number_threads=20, thread_timeout_seconds=2)

wayback_cnbc.build()
for article_extract in wayback_cnbc.articles:
   article_extract.download()
   article_extract.parse()

   print(article_extract.publish_date)
   print(article_extract.title)
   print(article_extract.url)
   print('')

   # this sleep timer is helping with some timeout issues
   # that were happening when querying
   sleep(randint(1,3))

上面的例子输出这个:

None
Media
https://web.archive.org/web/20180301012621/https://www.cnbc.com/media/
    
None
CNBC Video
https://web.archive.org/web/20180301012621/https://www.cnbc.com/video/

2017-11-08 00:00:00
CNBC Healthy Returns
https://web.archive.org/web/20180301012621/https://www.cnbc.com/2017/11/08/healthy-returns.html

2018-02-28 00:00:00
Markets in Asia decline as dollar steadies; Nikkei falls 307 points 
https://web.archive.org/web/20180301012621/https://www.cnbc.com/2018/02/28/asia-markets-stocks-dollar-and-china-caixin-pmi-in-focus.html

2018-02-28 00:00:00
S&P 500 rises, but on track to snap longest monthly win streak since 1959
https://web.archive.org/web/20180301012621/https://www.cnbc.com/2018/02/28/us-stocks-interest-rates-fed-markets.html

希望这个答案有助于您在 WayBack Machine 中查询文章的用例。如果您有任何问题，请告诉我。

关于带有网络存档的 Python 报纸(回归机器)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41680013/

24

4

0

文章推荐： java - 在 shell 中执行 java 并等待我得到返回码

文章推荐： gcc - 如何在 ld 链接描述文件中使用 INCLUDE 命令

文章推荐： wpf - 即使用户控件折叠/隐藏也会显示错误样式

Python包(报纸)安装报错
尝试安装包失败并出现以下错误。我用谷歌搜索并安装了 setuptools - 仍然遇到同样的错误。命令:pip install newspaper Collecting nltk==2.0.5 (f
带有网络存档的 Python 报纸(回归机器)
我正在尝试使用 Python 库 newspaper来自 Wayback Machine 的文件，存储已存档的旧版本网站。理论上，可以从这些文件中查询和下载旧的新闻文章。例如，下面的代码查询文件 C
ios - 书报摊套件，可在一个应用程序中提供多个杂志/报纸
因此，基本上我的问题是:报亭工具包可以在单个应用程序中用于几种不同的杂志订阅吗？从wwdc 504 session 来看，这并不是真的。以我的理解，杂志/报纸订阅似乎与1个应用程序结合在一起。例如，U
html - 报纸 Wordpress 主题中移动设备上的图像宽度 100%
我的 wordpress 主题中的 css 图像宽度样式有问题。图像宽度设置为 100%，但图像以其原始大小显示。并且溢出以某种方式被隐藏了。但是我无法弄清楚是哪个元素导致了这种行为以及如何解决它？
css - 文本的 HTML 流体多列布局(报纸)
有没有什么 CSS 技术或好的 js 技术来布局内容，让你有一个像“报纸”一样的页面。给定一个包含一堆内容的 div(或其他)，将该内容拆分为 N 列，总宽度为一些预定义的宽度。假设 N = 3，假
python - 报纸.文章.文章异常 : Article `download()` failed with 403 Client Error: Forbidden for url
我正在尝试从我可以通过网络(例如 Safari)浏览的文章中下载文本。错误是: newspaper.article.ArticleException: Article `download()` fa

首页

博学

6Ren·AI

商城

带有网络存档的 Python 报纸(回归机器)