gpt4 book ai didi

java - 替代 Jaxer 用于解析/爬行网站

转载 作者:行者123 更新时间:2023-12-01 15:32:46 24 4
gpt4 key购买 nike

我有一个(前)同事几年前用 Jaxer 编写的旧工具,我想替换/重写它。

Jaxer是一个(已废弃的)服务器端框架,基于 headless Mozilla/Gecko 浏览器,允许您使用 JavaScript 和 DOM 服务器端。

由于 Jaxer 已被废弃,而且我在新计算机上安装和运行带有 Jaxer 的 Aptana Studio 1.5 时遇到了很大问题,因此我正在寻找一个库/框架/可以作为新版本基础的东西。

此工具仅在 Aptana Studio(Jaxer 的 IDE)内本地运行,并且从未打算成为实际的 Web 应用程序。它通过将客户的网站逐页加载到服务器端 Mozilla 来抓取我们的客户网站。为了做到这一点,它使用 jQuery 和预定义的 CSS 选择器来查找菜单中的链接并从页面中解析其他信息。最终结果基本上是一个美化的站点地图。

如果可能的话,我想保留这种操作方式,并继续使用 jQuery/JavaScript/DOM 来加载和解析/访问页面,但它可以包装在基于另一种语言(例如 Java)的框架中。我考虑过自己写一些基于 Gecko 的东西,但这似乎有点过头了,所以我愿意接受其他建议。

最佳答案

就 HTML 抓取/解析而言: http://ccil.org/~cowan/XML/tagsoup/

http://jsoup.org/

关于java - 替代 Jaxer 用于解析/爬行网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9375920/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com