gpt4 book ai didi

hadoop - Nutch 1.x:如何使用s3a代替HDFS?

转载 作者:行者123 更新时间:2023-12-02 20:24:57 25 4
gpt4 key购买 nike

我已经阅读了官方的Apache Nutch with Hadoop tutorial。它讨论了在“部署模式”(即Hadoop集群中)中使用Nutch时使用HDFS存储Nutch的数据。

使用Hadoop时,相对于HDFS,我更喜欢使用s3a作为存储后端。 Nutch 1.x是否支持使用s3a而不是HDFS来存储数据?如果是这样,哪些相关的Nutch / Hadoop设置需要调整?

最佳答案

如果基础Hadoop支持,则最新版本的Nutch 1.x(1.14及更高版本,请参见NUTCH-2281)支持s3a文件系统。

注意:通常,s3a比HDFS慢,请参阅S3A performance issues。这尤其适用于Nutch的CrawlDb或LinkDb。 CrawlDb每周期更新一次,首先将新的CrawlDb写入新目录,然后通过将新的CrawlDb移到“当前”来替换 Activity 的CrawlDb(称为“当前”)。 “mv”在HDFS上便宜,但在S3A上却不便宜。

最终,您可能希望将CrawlDb保留在HDFS上,并使用“distcp”在S3A上对其进行检查。

关于hadoop - Nutch 1.x:如何使用s3a代替HDFS?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57458525/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com