gpt4 book ai didi

java - 如何在 Java 中抓取 scholar.google.com?

转载 作者:行者123 更新时间:2023-11-30 06:38:39 25 4
gpt4 key购买 nike

我想编写一个 Java 函数 grabTopResults(String f) 以便 grabTopResults("automata theory") 返回关于学者的前 100 篇引用论文的列表.google.com 用于“自动机理论”。

有没有人对哪些图书馆能让我的生活变得轻松有什么建议?

谢谢!

最佳答案

因为我确信 Google 可以负担得起带宽,所以我将忽略这是否不道德/非法/Google 的 T&C 禁止的问题

您需要做的第一件事是弄清楚您需要发出什么 HTTP 请求(或多个请求)才能获得包含您需要的数据的页面。弄清楚后,使用 HttpClient从 Java 代码发出相同的请求。上一个链接显示了解释如何执行此操作的示例代码。

下载相关页面的内容后,您需要使用 HTML 解析器提取您感兴趣的数据。Jericho parser peperg 的建议是一个不错的选择。

如果 Google 警察来敲门,你一定没听说过我,好吗?

关于java - 如何在 Java 中抓取 scholar.google.com?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2056632/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com