java - 403禁止使用Java但不是Web浏览器？-6ren

java - 403禁止使用Java但不是Web浏览器？

转载作者：IT老高更新时间：2023-10-28 20:43:36

24

4

我正在编写一个小型 Java 程序来获取给定 Google 搜索词的结果量。出于某种原因，在 Java 中我得到了 403 Forbidden，但我在 Web 浏览器中得到了正确的结果。代码:

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;


public class DataGetter {

    public static void main(String[] args) throws IOException {
        getResultAmount("test");
    }

    private static int getResultAmount(String query) throws IOException {
        BufferedReader r = new BufferedReader(new InputStreamReader(new URL("https://www.google.com/search?q=" + query).openConnection()
                .getInputStream()));
        String line;
        String src = "";
        while ((line = r.readLine()) != null) {
            src += line;
        }
        System.out.println(src);
        return 1;
    }

}

还有错误:

Exception in thread "main" java.io.IOException: Server returned HTTP response code: 403 for URL: https://www.google.com/search?q=test
    at sun.net.www.protocol.http.HttpURLConnection.getInputStream(Unknown Source)
    at sun.net.www.protocol.https.HttpsURLConnectionImpl.getInputStream(Unknown Source)
    at DataGetter.getResultAmount(DataGetter.java:15)
    at DataGetter.main(DataGetter.java:10)

为什么要这样做？

最佳答案

您只需要设置用户代理 header 即可使其工作:

URLConnection connection = new URL("https://www.google.com/search?q=" + query).openConnection();
connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11");
connection.connect();

BufferedReader r  = new BufferedReader(new InputStreamReader(connection.getInputStream(), Charset.forName("UTF-8")));

StringBuilder sb = new StringBuilder();
String line;
while ((line = r.readLine()) != null) {
    sb.append(line);
}
System.out.println(sb.toString());

从您的异常堆栈跟踪中可以看出，SSL 已为您透明地处理。

虽然获得结果量并不是那么简单，但在此之后，您必须通过获取 cookie 并解析重定向 token 链接来假装自己是浏览器。

String cookie = connection.getHeaderField( "Set-Cookie").split(";")[0];
Pattern pattern = Pattern.compile("content=\\\"0;url=(.*?)\\\"");
Matcher m = pattern.matcher(response);
if( m.find() ) {
    String url = m.group(1);
    connection = new URL(url).openConnection();
    connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11");
    connection.setRequestProperty("Cookie", cookie );
    connection.connect();
    r  = new BufferedReader(new InputStreamReader(connection.getInputStream(), Charset.forName("UTF-8")));
    sb = new StringBuilder();
    while ((line = r.readLine()) != null) {
        sb.append(line);
    }
    response = sb.toString();
    pattern = Pattern.compile("<div id=\"resultStats\">About ([0-9,]+) results</div>");
    m = pattern.matcher(response);
    if( m.find() ) {
        long amount = Long.parseLong(m.group(1).replaceAll(",", ""));
        return amount;
    }

}

正在运行 the full code结果我得到 2930000000L。

关于java - 403禁止使用Java但不是Web浏览器？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13670692/

24

4

0

文章推荐： java - 自动用随机数据填充原始属性？

文章推荐： python - 从 UnitTest/WebTest 运行 Python/Django 管理命令

文章推荐： python:使用回车和逗号打印不起作用

java - 如何将 IE 浏览器 session 切换到 Chrome 浏览器 session ？
我的“登录”是在 IE 浏览器中进行的，登录后，如果我单击链接，它们就会在 Chrome 浏览器中打开。如何在同一个测试用例中将我当前的浏览器从 IE 切换到 Chrome。如果我创建一个 chrom
css - 在 Firefox 中，与 css 内容属性一起使用的特殊字符比在 Firefox 中更薄。浏览器/浏览器
您好，我不明白在 Firefox 的内容属性中使用的特殊字符的不同显示行为。我已经剥离了一切并创造了一支笔: http://codepen.io/rpkoller/pen/Fbgav 在其“基本形式”
java - Spring Data REST - HAL 浏览器 - 返回 HAL 浏览器 HTML 而不是 API 的根
我正在研究 Spring Data REST，特别是 HAL 浏览器。我一直在关注 http://docs.spring.io/spring-data/rest/docs/current/refere
Jquery if 浏览器
我正在使用工具提示，在 ie 上出现定位错误。我放了jquery浏览器代码我的工具提示 $('.tooltip').tooltip({ position: "bottom center"
javascript - bluebirdjs协程错误处理(浏览器)
我应该如何处理蓝鸟协程中的错误？我使用co in节点已有一段时间，它具有出色的捕获功能。 co(function*() { return new Promise(function(resol
JavaFX WebView 浏览器
package webviewbrowser; import java.util.List; import javafx.application.Application; import javafx.
javascript - 浏览器/JavaScript同源策略如何应用于二级域名？
我有一些 JavaScript 在同一域上的两个独立服务器之间共享请求。 .com 是 JavaScript 中域的要求吗？在这种情况下，两台服务器都位于 .abc.tyy 域上，tyy 通常是 .
JavaFX WebView 浏览器
package webviewbrowser; import java.util.List; import javafx.application.Application; import javafx.
构建以前版本的 Chromium 浏览器
我正在尝试构建仍支持 NPAPI 的先前版本的 Chromium 浏览器。我已经获得了代码，并且可以使用 stand build 命令在我的 mac 上构建最新版本的 Chromium gclient
python - Python 浏览器
我环顾四周，找不到 browscap 的 Python 等效项(我在 PHP 中使用它来检测给定的用户代理字符串是什么浏览器。我希望我不必自己写......:P 最佳答案看看这个，它应该做你想要的
javascript - 浏览器 - 文件编写器扩展？
是否有任何 chrome 或 firefox 扩展允许 javascript 在客户端 PC 中创建写入文件？最佳答案你想做什么？ HTML5 有一个 File API .这是最好的解决方案，因为
javascript - 浏览器/选项卡关闭检测时发出警报
当我点击链接或刷新或关闭标签页时，我有这段代码会发出警报。但我需要在关闭窗口(选项卡)上仅发出警报。怎么做？我的网站上有很多外部和内部链接。
javascript - Angular +浏览器
我目前正在尝试使用 Browserify + Angular，但我遇到了一个奇怪的问题。我在我的 Controller 的子目录中创建了一个名为 controllers/start-controlle
testing - 响应式布局针对哪些设备/浏览器
我正在为客户(项目已被接受，但现在是解释不同功能的问题)写一份详细的估算，以开发一个响应式布局的网站。这不是我第一次进行此类开发，但这是一个关键客户，必须铺平道路。布局将从 300px 宽度调整到
css - 浏览器/网络邮件客户端中的默认打印样式
我在时事通讯上设计了一些黑底白字。由于时事通讯在打印时看起来不错且可读。我需要使布局和文本与浏览器中的内容相似。通常情况下，黑色文本和无背景颜色是浏览器/网络邮件客户端的默认打印样式吗？最佳答案
Android 浏览器 - 无法将输入文本从白色更改为黑色
我有一个使用 GWT/mGWT 构建的移动友好网络应用程序。该应用程序有白色输入文本框和深灰色输入文本。但是，在 Android 浏览器上，文本显示为白色，因此是不可见的。我尝试的所有 CSS 都无法
javascript - 浏览器 - 强制重新加载删除cookie？
我创建了一个带有选择输入的页面来更改正在使用的 jQuery UI 主题。当主题更改时，它会存储在 cookie 中。页面加载时，如果 cookie 存在，则恢复主题，否则加载默认主题。当我使用 F
css - 浏览器/渲染引擎如何知道在哪里连接单词？
在我的 CSS 中，我使用了以下代码片段: word-break: break-word; -webkit-hyphens: auto; hyphens: auto; 渲染引擎如何知道在所有不同语言中
CSS WordPress 浏览器
我的网络浏览器 Safari 有问题，我在 Chrome、FireFox 中测试了我的网站。 Safari 版本也是正确的，但是，当需要在 1920x1080 或更高分辨率下对其进行测试时，它无法正常
PHP headless 浏览器？
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit

首页

博学

6Ren·AI

商城

java - 403禁止使用Java但不是Web浏览器？