python - python goose 与 New York Times 提取文章的方法-6ren

python - python goose 与 New York Times 提取文章的方法

转载作者：太空宇宙更新时间：2023-11-03 17:07:58

25

4

我正在尝试使用 python goose extractor 从《纽约时报》中提取文章。

我尝试过使用标准的 url 检索方式:

g.extract(url=url)

但是这会产生一个空字符串。所以我尝试了文档推荐的以下方法:

import urllib2
import goose
url = "http://www.nytimes.com/reuters/2015/12/21/world/africa/21reuters-kenya-attacks-somalia.html?_r=0"
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())
response = opener.open(url)
raw_html = response.read()
g = goose.Goose()
a = g.extract(raw_html=raw_html)
a.cleaned_text

再次为“cleaned_text”返回一个空字符串。 html 是从网站检索的。我也尝试过使用请求，但结果相同。

我认为这是一个 python goose 问题，无法从返回的原始数据中提取文章正文。我之前已经搜索过，但找不到任何可以解决我的问题的结果。

最佳答案

看起来鹅传统上对《纽约时报》有问题，因为(1)他们将用户重定向到另一个页面以添加/检查cookie(请参阅下面的curl)，并且因为(2)他们实际上没有加载以下文本关于页面加载的文章。他们在首次执行广告显示代码后异步执行此操作。

~ curl -I "http://www.nytimes.com/reuters/2015/12/21/world/africa/21reuters-kenya-attacks-somalia.html"
HTTP/1.1 303 See Other
Server: Varnish
Location: http://www.nytimes.com/glogin?URI=http%3A%2F%2Fwww.nytimes.com%2Freuters%2F2015%2F12%2F21%2Fworld%2Fafrica%2F21reuters-kenya-attacks-somalia.html%3F_r%3D0
Accept-Ranges: bytes
Date: Tue, 22 Dec 2015 15:46:55 GMT
X-Varnish: 1338962331
Age: 0
Via: 1.1 varnish
X-API-Version: 5-0
X-PageType: article
Connection: close
X-Frame-Options: DENY
Set-Cookie: RMID=007f01017a275679706f0004;Path=/; Domain=.nytimes.com;Expires=Wed, 21 Dec 2016 15:46:55 UTC

关于python - python goose 与 New York Times 提取文章的方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34419351/

25

4

0

文章推荐： c# - 诠释？ c#，在ref中使用，到底是什么

文章推荐： ruby - 在ruby中生成一个特定的数组

文章推荐： python - 应用沙盒: Python wandering out of the sandbox

文章推荐： ruby - 日期之间的天数

Python Goose 无法提取日期
我正在使用 Python Goose。您可以在 this link 中找到它我想提取发布日期，但是当我运行: g = Goose() entity = g.extract(url="mylink")
python - 如何使用 python-goose 获取文章的作者
我正在尝试从新闻机构抓取文章，但我不知道如何使用 python-goose 获取文章的作者。我已经阅读了文档、源代码并搜索了 google。 from goose import Goose def g
Java Goose 不在 Android 上提取内容
我正在尝试设置一个小型 Android 应用程序，它使用 Goose 库从网页中提取内容。由于该库是用 Scala 编写的，我使用的是我找到的 .jar here .问题是，当我尝试从页面中提取内容时
java - 在我的 Swing Goose 类中出现 NullPointerException
我认为我的 _holder 和/或 _gooseAction 是 null....以下是 _holder 所在的相关代码/类和 _gooseAction 被实例化: Goose.java publi
Python Goose 无法提取 mashable/usatoday/politicalwire 文章
我正在使用 python goose extractor，但 mashable.com 和 usatoday.com 上的每篇文章都失败了。有人可以建议解决该问题吗？对于 usatoday.com
python - 无法导入 python-goose (OSX 10.9)
我正在尝试在 virtualenv 中正确设置 python-goose。更新:我对 python 进行了核攻击，并按照概述 here 开始进行全新安装。 . 我关注了 python-goose i
go - 用 gorm 写一个 goose go migration
默认goose go migration 准备了一个提供*sql.Tx的函数: A transaction is provided, rather than the DB instance direc
python - python goose 与 New York Times 提取文章的方法
我正在尝试使用 python goose extractor 从《纽约时报》中提取文章。我尝试过使用标准的 url 检索方式: g.extract(url=url) 但是这会产生一个空字符串。所以我
database - 无法使 Goose DB Migration 用于 Go 测试
我目前正在学习用于 Web 编程的 Golang，现在我将继续学习数据库、Rest API 和 Golang 中的测试。现在我遇到了 Goose 的问题数据库迁移和 Go 测试集成。我想将 g
python - 权限错误 : [WinError 5] Access is Denied when Installing goose-extractor
我试图使用 https://www.openshift.com/blogs/day-16-goose-extractor-an-article-extractor-that-just-works 上的
c# - 异步 TPL 死锁与第三方 lib aka wild goose chase
在为此度过了非常令人沮丧且毫无成效的一天之后，我在这里发帖寻求帮助。我正在使用以未知方式启动网络连接的第三方库(但我知道它是非托管库的托管包装器)。它通过调用事件让您了解连接状态 StatusCha
docker - 无法连接到 docker 容器中的数据库主机，从 api-service 到 db-service，以便在 golang 中使用 goose 进行迁移
goose 是帮助我运行所有 *sql 文件并在数据库中运行查询的迁移工具。我想在我的 api 服务的 docker 容器中使用此工具自动执行迁移(创建表和其他内容)。问题是当 docker 运行命令

首页

博学

6Ren·AI

商城

python - python goose 与 New York Times 提取文章的方法