gpt4 book ai didi

java - 自动记录和网页抓取

转载 作者:行者123 更新时间:2023-12-02 08:02:07 25 4
gpt4 key购买 nike

我有一项任务需要自动登录并抓取特定网站。

我见过有人建议使用 Java 的 htmlUnit 和 HttpClient。 htmlUnit 看起来像一个测试工具。我不知道该怎么办。是否有一个示例解释使用 htmlUnithttpClient 自动登录和网页抓取?

我是一名 Java 开发人员。与它密切合作的任何人都可以分享任何想法吗?

最佳答案

您的问题可以分解为

  • 登录网站
  • 从网站上抓取数据。

所以,对于第一部分:

  1. 安装 livehttp header firefox addon 并读取所有 http您的浏览器在尝试时发送和接收的 header 登录。

  2. 尝试使用您的 java 代码发送这些 header ,基本上您已经使用您的 java 代码模拟 HTTP POST 请求。为了那个原因 google->从java发出post请求

登录网站后,使用您选择的 API 废弃数据。我个人使用 htmlcleaner HtmlCleaner .

要抓取数据,您可以将 XPath 表达式 与 htmlcleaner 结合使用。

看看Xpath+htmlcleanerhere also

您还可以使用 JSoup 代替 htmlcleaner。使用 JSoup 的优点是它可以处理登录[POST 请求]和数据抓取。看看这里http://pastebin.com/E0WzpuhF

我知道这似乎需要大量工作,我为您的问题提供了两种替代解决方案,但将您的问题分成更小的 block ,然后尝试解决它。​​

关于java - 自动记录和网页抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8749464/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com