- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我们有一个使用 Guzzle 5 来下载 Wordpress RSS 提要的 php 网络应用程序。
它工作正常,除了这个 feed https://www.socialquant.net/blog/feed/
该网站的所有者确实希望我们拉取 feed,而不是故意试图阻止访问。
我可以使用 wget
或 curl
从本地计算机和生产 Web 服务器(我们最初注意到问题的地方)成功下载文件,无需特殊选项。
这之前发生过一次,当时我们认为问题是由 Apache 上的 mod_security 引起的,通过添加任意 User-Agent header 解决了这个问题。但那一次我能够在命令行上一致地重现问题,这次它只是通过 Guzzle/PHP 失败了
我已将响应 header 从浏览器请求复制到问题提要,以及另一个有效的提要。我划掉了那些相同的,剩下的是下面的
Server:Apache/2.2.22
Vary:User-Agent
X-Powered-By:PHP/5.3.29
Content-Encoding:gzip
Server:Apache
Vary:Accept-Encoding
X-Powered-By:PHP/5.5.30
这并没有提供太多的见解。 gzip 内容编码跳出,我试图找到另一个使用 gzip 的工作提要来验证这一点,但这无关紧要,因为 Guzzle 的默认模式是自动处理编码。我们使用相同的设置从使用 gzip 的 CDN 下载图像。
有人有什么想法吗?谢谢:)
编辑
使用 Guzzle 5.3.0
代码:
$client = new\GuzzleHttp\Client();
try {
$res = $client->get( $feed, [
'headers' => ['User-Agent' => 'Mozilla/4.0']
] );
} catch (\Exception $e) {
}
最佳答案
恐怕我没有适当的解决方案来解决您的问题,但我让它再次起作用。
tl;dr 版本
这是 User-Agent header ,将其更改为几乎任何其他内容都有效。
此 wget
调用失败:
wget -d --header="User-Agent: Mozilla/4.0" https://www.socialquant.net/blog/feed/
但这行得通
wget -d --header="User-Agent: SomeRandomText" https://www.socialquant.net/blog/feed/
这样,下面的 PHP 现在也可以工作了:
require 'vendor/autoload.php';
$client = new \GuzzleHttp\Client();
$feed = 'https://www.socialquant.net/blog/feed/';
try {
$res = $client->get(
$feed,
[
'headers' => [
'User-Agent' => 'SomeRandomText',
]
]
);
echo $res->getBody();
} catch (\Exception $e) {
echo 'Exception: ' . $e->getMessage();
}
我的想法
正如您所指出的,我从 wget
和 curl
开始,这在没有设置特殊 header 或选项时有效。在我的浏览器中打开它也有效。我还尝试在未设置 User-Agent
的情况下使用 Guzzle,这也有效。
一旦我将 User-Agent
设置为 Mozilla/4.0
甚至 Mozilla/5.0
它就开始失败并显示 406 Not Acceptable
根据HTTP Status Code definitions , 406 表示
The resource identified by the request is only capable of generating response entities which have content characteristics not acceptable according to the accept headers sent in the request.
理论上,添加Accept
和Accept-Encoding
header 应该可以解决问题,但事实并非如此。不是通过 Guzzle 或 wget
。
然后我找到了 Mozilla Developer Network definition其中指出:
This response is sent when the web server, after performing server-driven content negotiation, doesn't find any content following the criteria given by the user agent.
这有点指向 User-Agent
。这让我相信你确实是正确的,mod_security 正在做一些奇怪的事情。我确信客户端服务器上的 mod_security 或 Apache 更新添加了一条规则,以特定方式解析 Mozilla/*
用户代理,因为发送了 User-Agent: Mozilla/4.0 ( )
也有效。
这就是为什么我说我没有适合您的解决方案。即使客户希望您拉取提要,他们(或他们的主机)仍然控制着规则。
注意:我注意到我的 IP 在多次 406 尝试失败后被列入黑名单,之后我不得不等待一个小时才能再次访问该站点。很可能是 mod_security 规则。 mod_security 可能甚至通过您的用户代理接收自动请求并开始阻止它或使用 406 拒绝它。
关于php - 使用 Guzzle 但不是通过浏览器或命令行 cURL 或 wget 时出现 406,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37958989/
我以前从未做过任何 curl ,所以需要一些帮助。我试图从示例中解决这个问题,但无法理解它! 我有一个 curl 命令,我可以从 Windows 命令行成功运行该命令,该命令行在 Solr 中索引 p
curl -v有什么区别和 curl -I ? 我可以看到 -v是冗长的和 -I是标题。有什么具体的吗? 最佳答案 -I (大写字母 i)在 curl 中表示“没有正文”,对于 HTTP 表示发送 H
我正在使用curl php API访问FTP链接。在特定站点上,它给出错误代码9(拒绝访问)。但是,可以从IE和Firefox访问该链接。 然后,我运行curl命令行,它给出了相同的“访问拒绝”结果。
我已经使用curl有一段时间了,它可以正常工作,但是使用使用用户'domain\username'来验证curl的代理时,无法请求授权。授权方法是NTLM。此代码放入批处理文件中。 代码: curl
“curl”默认使用哪些证书? 例子: curl -I -L https://cruises.webjet.com.au 在 Ubuntu 15.04 上失败 curl: (60) SSL certi
我知道终端输出的一部分是请求的持续时间,剩余时间等。但是是否有一些文档指定了curl命令的终端输出的每一列到底是什么?手册页上的内容非常稀疏。 最佳答案 可能不容易找到,但已在the curl boo
我想通过 curl 在我自己的云服务器上的特定文件夹中上传文件。例如:http://www.myowncloudserver.com/remote.php/webdav/{MY_FOLDER}。此时我
我的网站上有一个密码保护的Web文件夹,我正在使用Curl在另一个域上获取该文件夹,我想要的是:当我尝试打开URL时,应该问我用户名和密码,而不是让它显示“需要授权”。 例: http://www.e
有没有一种方法可以通过简单的Curl获取Rabbitmq中队列的大小(剩余消息)? 类似于curl -xget http://host:1234/api/queue/test/stats 谢谢 最佳答
关闭。这个问题是opinion-based .它目前不接受答案。 2年前关闭。 锁定。这个问题及其答案是locked因为这个问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我最近开始在我的
我想访问需要用户名/密码的 URL。我想尝试用curl 访问它。现在我正在做类似的事情: curl http://api.somesite.com/test/blah?something=123 我收
我正在尝试使用 CURL 进行查询ElasticSearch 中的命令在windows平台。 例如:localhost:9200/playground/equipment/1?pretty 我收到一条
我正在尝试使用 Docker 构建和运行 Marklogic 实例。 Marklogic 提供了一些不错的 http api,所以,作为最终 CMD在 Dockerfile 中,我运行两个脚本,它们通
我正在尝试通过 cURL 检索网页的内容(比方说 http://www.foo.com/bar.php )。 当我在浏览器中加载网站时,加载页面时会出现动画,页面最终会显示出来。 但是使用 cURL,
我正在尝试使用带代理的命令行 CURL 获取响应状态代码。 这会返回整个页面,但我只想要状态代码。我怎么做?谢谢。 curl -sL -w -x IP:PORT "%{http_code}\n""ht
我有一段代码检查 http/s 端点的状态和加载时间。然后我会为每个顶级页面检查 1 级 href,以检查页面引用的所有内容是否也加载了 200。 (我查了50个顶级页面,每个顶级页面平均有8个链接)
curl --upload-file 和 curl --form file=@/path/file 有什么区别?这些 HTTP 请求有何不同? 最佳答案 --上传文件 (使用 HTTP 或 HTTPS
我正在尝试使用 system-curl 安装 cmake,使用 ./bootstrap --system-curl,如 here 所示.这样做,我得到了: -- Could NOT find
我需要使用 Curl 下载 Youtube 视频的特定部分。 (假设我想下载前 2MB)我在 Curl 中使用 -r 开关来实现这一点。它适用于非 YouTube 链接,但 Youtube 链接会忽略
我希望在使用 curl 命令从远程服务器下载文件后,将时间戳或日期添加到文件名中。我知道您可以使用 -o 来指定您要为文件命名的内容。我看到过这样的建议:-o "somefile $(date +\"
我是一名优秀的程序员,十分优秀!