gpt4 book ai didi

jsoup - Groovy 中的爬虫(JSoup VS Crawler4j)

转载 作者:行者123 更新时间:2023-12-04 10:18:07 36 4
gpt4 key购买 nike

我希望在 Groovy 中开发一个网络爬虫(使用 Grails 框架和 MongoDB 数据库),它能够爬取网站,创建网站 URL 列表及其资源类型、内容、响应时间和所涉及的重定向数量。

我正在讨论 JSoup 与 Crawler4j。我已经阅读了他们基本上所做的事情,但我无法清楚地理解两者之间的区别。任何人都可以建议对于上述功能哪个更好?或者将两者进行比较是完全不正确的?

谢谢。

最佳答案

Crawler4J是一个爬虫,Jsoup是一个解析器。实际上,您可以/应该同时使用两者。
Crawler4J 是一个简单的多线程接口(interface),可以获取您想要的站点的所有 url 和所有页面(内容)。之后,您可以使用 Jsoup 来解析数据,使用惊人的(类似 jquery 的)css 选择器并实际使用它做一些事情。当然,您必须考虑动态(javascript 生成)内容。如果您也想要该内容,那么您必须使用包含 javascript 引擎( headless 浏览器 + 解析器)的其他东西,例如 htmlunitwebdriver (selenium),它将在解析内容之前执行 javascript。

关于jsoup - Groovy 中的爬虫(JSoup VS Crawler4j),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24372118/

36 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com