- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试使用 Python 库 newspaper来自 Wayback Machine 的文件,存储已存档的旧版本网站。理论上,可以从这些文件中查询和下载旧的新闻文章。
例如,下面的代码查询文件 CNBC 对于特定的存档日期。
import newspaper
url = 'http://web.archive.org/web/20161201123529/http://www.cnbc.com/'
paper = newspaper.build(url, memoize_articles = False )
尽管存档的网站本身包含指向 2016 年 12 月 1 日的实际新闻文章的链接,但报纸模块似乎没有提取它们。相反,您会获得如下网址:
https://blog.archive.org/2016/10/23/defining-web-pages-web-sites-and-web-captures/
这些不是来自这个 CNBC 存档版本的实际文章。然而,报纸与今天的
CNBC 版本配合得很好。 .
http
s)而感到困惑。有人对如何从
Wayback Machine 中提取文章有任何建议吗?文件?
最佳答案
这是一个有趣的问题,我将把它添加到我的 Newspaper Usage Overview 中。 GitHub 上提供的文档。
我尝试使用 news.build,但我无法让它正常工作,所以我使用了报纸 Source。
from time import sleep
from random import randint
from newspaper import Config
from newspaper import Source
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:78.0) Gecko/20100101 Firefox/78.0'
config = Config()
config.browser_user_agent = USER_AGENT
config.request_timeout = 10
wayback_cnbc = Source(url='https://web.archive.org/web/20180301012621/https://www.cnbc.com/', config=config,
memoize_articles=False, language='en', number_threads=20, thread_timeout_seconds=2)
wayback_cnbc.build()
for article_extract in wayback_cnbc.articles:
article_extract.download()
article_extract.parse()
print(article_extract.publish_date)
print(article_extract.title)
print(article_extract.url)
print('')
# this sleep timer is helping with some timeout issues
# that were happening when querying
sleep(randint(1,3))
上面的例子输出这个:
None
Media
https://web.archive.org/web/20180301012621/https://www.cnbc.com/media/
None
CNBC Video
https://web.archive.org/web/20180301012621/https://www.cnbc.com/video/
2017-11-08 00:00:00
CNBC Healthy Returns
https://web.archive.org/web/20180301012621/https://www.cnbc.com/2017/11/08/healthy-returns.html
2018-02-28 00:00:00
Markets in Asia decline as dollar steadies; Nikkei falls 307 points
https://web.archive.org/web/20180301012621/https://www.cnbc.com/2018/02/28/asia-markets-stocks-dollar-and-china-caixin-pmi-in-focus.html
2018-02-28 00:00:00
S&P 500 rises, but on track to snap longest monthly win streak since 1959
https://web.archive.org/web/20180301012621/https://www.cnbc.com/2018/02/28/us-stocks-interest-rates-fed-markets.html
希望这个答案有助于您在 WayBack Machine 中查询文章的用例。如果您有任何问题,请告诉我。
关于带有网络存档的 Python 报纸(回归机器),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41680013/
尝试安装包失败并出现以下错误。我用谷歌搜索并安装了 setuptools - 仍然遇到同样的错误。 命令:pip install newspaper Collecting nltk==2.0.5 (f
我正在尝试使用 Python 库 newspaper来自 Wayback Machine 的文件,存储已存档的旧版本网站。理论上,可以从这些文件中查询和下载旧的新闻文章。 例如,下面的代码查询文件 C
因此,基本上我的问题是:报亭工具包可以在单个应用程序中用于几种不同的杂志订阅吗?从wwdc 504 session 来看,这并不是真的。以我的理解,杂志/报纸订阅似乎与1个应用程序结合在一起。例如,U
我的 wordpress 主题中的 css 图像宽度样式有问题。图像宽度设置为 100%,但图像以其原始大小显示。并且溢出以某种方式被隐藏了。但是我无法弄清楚是哪个元素导致了这种行为以及如何解决它?
有没有什么 CSS 技术或好的 js 技术来布局内容,让你有一个像“报纸”一样的页面。给定一个包含一堆内容的 div(或其他),将该内容拆分为 N 列,总宽度为一些预定义的宽度。 假设 N = 3,假
我正在尝试从我可以通过网络(例如 Safari)浏览的文章中下载文本。 错误是: newspaper.article.ArticleException: Article `download()` fa
我是一名优秀的程序员,十分优秀!