jsoup - Groovy 中的爬虫(JSoup VS Crawler4j)-6ren

jsoup - Groovy 中的爬虫(JSoup VS Crawler4j)

转载作者：行者123 更新时间：2023-12-04 10:18:07

36

4

我希望在 Groovy 中开发一个网络爬虫(使用 Grails 框架和 MongoDB 数据库)，它能够爬取网站，创建网站 URL 列表及其资源类型、内容、响应时间和所涉及的重定向数量。

我正在讨论 JSoup 与 Crawler4j。我已经阅读了他们基本上所做的事情，但我无法清楚地理解两者之间的区别。任何人都可以建议对于上述功能哪个更好？或者将两者进行比较是完全不正确的？

谢谢。

最佳答案

Crawler4J是一个爬虫，Jsoup是一个解析器。实际上，您可以/应该同时使用两者。
Crawler4J 是一个简单的多线程接口(interface)，可以获取您想要的站点的所有 url 和所有页面(内容)。之后，您可以使用 Jsoup 来解析数据，使用惊人的(类似 jquery 的)css 选择器并实际使用它做一些事情。当然，您必须考虑动态(javascript 生成)内容。如果您也想要该内容，那么您必须使用包含 javascript 引擎( headless 浏览器 + 解析器)的其他东西，例如 htmlunit或 webdriver (selenium)，它将在解析内容之前执行 javascript。

关于jsoup - Groovy 中的爬虫(JSoup VS Crawler4j)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24372118/

36

4

0

文章推荐：旋转 ggplot2 绘图对象

文章推荐： qt - 在QML ListView中的元素之间需要页边距

groovy - 在 groovy 脚本中包含一些 groovy 脚本
我有一些库脚本:lib1.groovy: def a(){ } lib2.groovy: def b(){ } lib3.groovy: def c(){ } 并想在其他脚本中使用它们:配置文件: a
groovy - 如何将 Groovy 放在集中式 Groovy 库中并从任何脚本访问该类
我有下面的 Groovy 脚本，我需要将它放在集中式 Groovy 库中，然后从 Ready API 项目中的任何脚本访问 Groovy 中提到的类路径 : D:\GroovyLib\com\Lin
groovy - 所有 Groovy 代码都对 Groovy++ 有效吗？
看完后this link ，我想尝试Groovy++，但我有一个担心； Groovy 的所有语法在 Groovy++ 中都有效吗？例如，我可以在 Groovy 中执行此操作: def list =
groovy - Spring Boot + Groovy + logback.groovy
我在 Spring-boot 应用程序中混合了 Groovy 和 Java。休息 Controller 和数据访问是用 Groovy 编写的。配置主要使用Java。根据 logback 文档，如果类
groovy - 在另一个 groovy 中包含一个 groovy 脚本
我已阅读how to simply import a groovy file in another groovy script 我想在一个 groovy 文件中定义常用函数，并从其他 groovy 文
groovy - 是否可以将多个 groovy 类放在同一个 groovy 文件中？
你知道，我也知道，只要只有一个是公共(public)的，就可以用 Java 实现。但是，在 Groovy 中可以这样做吗？如果是的话，在什么条件下？最佳答案 Java 和 Groovy 之间在可以放
groovy - 如何在另一个 groovy 脚本中简单地导入 groovy 文件
~/groovy % tree . ├── lib │ ├── GTemplate.class │ └── GTemplate.groovy └── Simple.groovy class
groovy - 将参数复制到 Groovy 类中的属性的 Groovy 方法是什么？
给定一个具有属性和构造函数的对象，我希望将构造函数参数复制到属性中，然后在构造函数中做一些额外的工作。 import groovy.transform.TupleConstructor @TupleC
groovy - 使用 groovy 脚本输出作为另一个 groovy 脚本的输入
我会提前道歉，我是 groovy 的新手。我的问题是我有 3 个执行不同功能的 groovy 脚本，我需要从我的主 groovy 脚本中调用它们，使用脚本 1 的输出作为脚本 2 的输入和脚本 2 的
groovy - Groovy 中静态闭包的访问值
我想在静态闭包中存储一些属性，然后在方法调用期间访问它们: class Person { static someMap = { key1: "value1", key2: "value2" } }
groovy - Groovy 中的安全范围运算符？
Groovy 是否有安全范围运算符？例如，如果我有， [1,2,3][0..10] Groovy 会抛出一个 java.lang.IndexOutOfBoundsException: 有没有索引安全
groovy - Groovy 中的内联条件映射字面量
在 Groovy 中使用 Maps/JsonBuilder 处理一些翻译/映射功能。是否有可能(无需在 map 文字创建之外创建额外的代码).. 有条件地包含/排除某些键/值对？一些事情沿着以下路线
groovy - Groovy:if-then语句是否具有局部作用域？
不知道我是否正确询问，但是我有类似以下内容: def x = 1 if (x == 1) { def answer = "yes" } println answer 我收到错误
groovy - groovy 是弱类型还是强类型？
我不明白 groovy 打字是如何工作的。在 wikipedia据说它具有很强的类型，但我可以在解释器上完美地做到这一点: 1 + '1' ==> 11 所以也许我很困惑，我不明白弱类型是什么，但我想
groovy - Groovy 中的函数式样式计数器
我对函数式编程概念非常陌生，正在观看 Neil Ford 在 youtube 中的演讲。 .在那里他谈到了一个计数器来演示一段代码而不使用全局状态(在 20:04)。来自 Java 世界，我很难理解这
groovy - Groovy 中的类型类型转换
我有两个问题。我执行以下代码来查找 $ 的 ASCII 值: def a = "\$" def b = (int)a println b //prints 36 好吧，我对答案很满意。但是当我尝试像
groovy - Groovy 做值匹配的方法？
只是想知道时髦像这样与默认值进行值匹配的方法？ if(params.max != 10 && params.max != 20 && params.max != 30){ params.m
groovy - Groovy *。运营商
我最近正在读《行动中的格鲁夫》。在第7章中，它介绍了*。运算符(operator) 。当我运行有关此运算符的代码时，我会遇到一些错误。 class Invoice {
groovy - Groovy 中的真正组合
是否有易于阅读的方法或一些聪明的方法来制作 combination Groovy 中的元素？我知道 Iterable#combinations或 GroovyCollections#combinati
groovy - 安装 Groovy
最近我下载了 Groovy-2.3.6 并尝试在 Linux 系统上安装它。我按照 http://groovy-lang.org/install.html 的说明进行操作.我设置了我的 GROOVY_

首页

博学

6Ren·AI

商城

jsoup - Groovy 中的爬虫(JSoup VS Crawler4j)