gpt4 book ai didi

hadoop - Apache Nutch 在限制后刷新 gora 记录

转载 作者:可可西里 更新时间:2023-11-01 15:23:53 24 4
gpt4 key购买 nike

我已经为 Nutch 2.3.1 配置了 Hadoop/Hbase 生态系统。我没有更改 gora.buffer.read.limitgora.buffer.read.limit,即在这两种情况下都使用它们的默认值 10000。在生成阶段,我将 topN 设置为 100,000。在生成作业期间,我得到以下信息

org.apache.gora.mapreduce.GoraRecordWriter: Flushing the datastore after 60000 records

工作完成后,我发现有 100,000 个 url 被标记为已提取,我想成为。但我很困惑上面的警告显示了什么? gora.buffer.read.limit 对我的爬行有什么影响?有人可以指导吗?

最佳答案

那个日志是写here .默认情况下,缓冲区在写入 10000 条记录后刷新,因此您必须在某处将 gora.buffer.write.limit 配置为 60000(在 core-site. xmlmapred-site.xml 或代码?)。

这并不重要,因为它处于 INFO 级别。它只通知写入缓冲区将要写入存储。写入过程在您每次调用 store.flush() 时发生,或者以 gora.buffer.write.limit 大小的批处理进行。

关于hadoop - Apache Nutch 在限制后刷新 gora 记录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49872466/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com