gpt4 book ai didi

java - 有哪些好的 Java 库可以从网页中搜索和抓取数据。

转载 作者:行者123 更新时间:2023-11-29 06:11:00 25 4
gpt4 key购买 nike

有哪些优秀的开源 Java 库可以从网页中搜索和抓取数据并将其存入数据库。例如,假设我有一个页面,例如:

<tr><td><b>Address:</b></td>
<td colspan=3>123 My Street </td></tr>

“地址:”是关键,但我实际上是在尝试获取“123 My Street”,其中有一堆 html 标签和中间的空格。理想情况下,我想获取字符串“地址:”之后的 td 之间的值。似乎 JSoup 可以进行查找,但我没有看到有关如何进行偏移的好示例(我可能错过了)。是否有处理键/值的库?

我也有兴趣了解与 Kapow 提取浏览器类似的 UI 脚本的任何开源 (MIT/Apache) 计划。

谢谢。

最佳答案

尝试 Web-Harvest .它是用 Java 编写的开源爬虫。
它可以用作 Java 库、命令行应用程序或与其独立的 IDE 一起使用。

您可以使用 <xpath> 从 XHTML 文档中提取任何值的元素。

关于java - 有哪些好的 Java 库可以从网页中搜索和抓取数据。,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6867628/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com