gpt4 book ai didi

web - 使用 Apache Spark 进行分布式 Web 爬网 - 有可能吗?

转载 作者:行者123 更新时间:2023-12-04 00:38:03 25 4
gpt4 key购买 nike

当我参加一次关于网络挖掘的采访时,我问了一个有趣的问题。问题是,是否可以使用 Apache Spark 抓取网站?

我猜是可能的,因为它支持 Spark 的分布式处理能力。面试后我搜索了这个,但找不到任何有趣的答案。 Spark 可以实现吗?

最佳答案

Spark 基本上没有为这项任务增加任何值(value)。

当然,您可以进行分布式爬网,但是好的爬网工具已经开箱即用地支持这一点。 Spark 提供的数据结构(例如 RRD)在这里几乎没有用,并且只是为了启动爬网作业,您可以直接使用 YARN、Mesos 等,开销更少。

当然,您可以在 Spark 上执行此操作。就像你可以在 Spark 上做一个文字处理器一样,因为它是图灵完备的……但它并没有变得更容易。

关于web - 使用 Apache Spark 进行分布式 Web 爬网 - 有可能吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29950299/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com