- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在尝试使用 python goose extractor 从《纽约时报》中提取文章。
我尝试过使用标准的 url 检索方式:
g.extract(url=url)
但是这会产生一个空字符串。所以我尝试了文档推荐的以下方法:
import urllib2
import goose
url = "http://www.nytimes.com/reuters/2015/12/21/world/africa/21reuters-kenya-attacks-somalia.html?_r=0"
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())
response = opener.open(url)
raw_html = response.read()
g = goose.Goose()
a = g.extract(raw_html=raw_html)
a.cleaned_text
再次为“cleaned_text”返回一个空字符串。 html 是从网站检索的。我也尝试过使用请求,但结果相同。
我认为这是一个 python goose 问题,无法从返回的原始数据中提取文章正文。我之前已经搜索过,但找不到任何可以解决我的问题的结果。
最佳答案
看起来鹅传统上对《纽约时报》有问题,因为(1)他们将用户重定向到另一个页面以添加/检查cookie(请参阅下面的curl),并且因为(2)他们实际上没有加载以下文本关于页面加载的文章。他们在首次执行广告显示代码后异步执行此操作。
~ curl -I "http://www.nytimes.com/reuters/2015/12/21/world/africa/21reuters-kenya-attacks-somalia.html"
HTTP/1.1 303 See Other
Server: Varnish
Location: http://www.nytimes.com/glogin?URI=http%3A%2F%2Fwww.nytimes.com%2Freuters%2F2015%2F12%2F21%2Fworld%2Fafrica%2F21reuters-kenya-attacks-somalia.html%3F_r%3D0
Accept-Ranges: bytes
Date: Tue, 22 Dec 2015 15:46:55 GMT
X-Varnish: 1338962331
Age: 0
Via: 1.1 varnish
X-API-Version: 5-0
X-PageType: article
Connection: close
X-Frame-Options: DENY
Set-Cookie: RMID=007f01017a275679706f0004;Path=/; Domain=.nytimes.com;Expires=Wed, 21 Dec 2016 15:46:55 UTC
关于python - python goose 与 New York Times 提取文章的方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34419351/
我正在使用 Python Goose。您可以在 this link 中找到它 我想提取发布日期,但是当我运行: g = Goose() entity = g.extract(url="mylink")
我正在尝试从新闻机构抓取文章,但我不知道如何使用 python-goose 获取文章的作者。我已经阅读了文档、源代码并搜索了 google。 from goose import Goose def g
我正在尝试设置一个小型 Android 应用程序,它使用 Goose 库从网页中提取内容。由于该库是用 Scala 编写的,我使用的是我找到的 .jar here .问题是,当我尝试从页面中提取内容时
我认为我的 _holder 和/或 _gooseAction 是 null....以下是 _holder 所在的相关代码/类 和 _gooseAction 被实例化: Goose.java publi
我正在使用 python goose extractor,但 mashable.com 和 usatoday.com 上的每篇文章都失败了。有人可以建议解决该问题吗? 对于 usatoday.com
我正在尝试在 virtualenv 中正确设置 python-goose。 更新:我对 python 进行了核攻击,并按照概述 here 开始进行全新安装。 . 我关注了 python-goose i
默认goose go migration 准备了一个提供*sql.Tx的函数: A transaction is provided, rather than the DB instance direc
我正在尝试使用 python goose extractor 从《纽约时报》中提取文章。 我尝试过使用标准的 url 检索方式: g.extract(url=url) 但是这会产生一个空字符串。所以我
我目前正在学习用于 Web 编程的 Golang,现在我将继续学习数据库、Rest API 和 Golang 中的测试。 现在我遇到了 Goose 的问题 数据库迁移和 Go 测试 集成。 我想将 g
我试图使用 https://www.openshift.com/blogs/day-16-goose-extractor-an-article-extractor-that-just-works 上的
在为此度过了非常令人沮丧且毫无成效的一天之后,我在这里发帖寻求帮助。 我正在使用以未知方式启动网络连接的第三方库(但我知道它是非托管库的托管包装器)。它通过调用事件让您了解连接状态 StatusCha
goose 是帮助我运行所有 *sql 文件并在数据库中运行查询的迁移工具。我想在我的 api 服务的 docker 容器中使用此工具自动执行迁移(创建表和其他内容)。问题是当 docker 运行命令
我是一名优秀的程序员,十分优秀!