gpt4 book ai didi

mongodb - 将数据从 MongoDB 发送到 Hadoop 的有效方法是什么?

转载 作者:可可西里 更新时间:2023-11-01 15:16:14 25 4
gpt4 key购买 nike

我正在与一位同事讨论 MongoDB 连接器在 Hadoop 中的使用,他解释说它非常低效。他表示,MongoDB 连接器利用自己的 map reduce,然后使用 Hadoop map reduce,这在内部减慢了整个系统。

如果是这样,将我的数据传输到 Hadoop 集群的最有效方法是什么?如果 MongoDB 连接器效率更低,它有什么用?在我的场景中,我想从 MongoDB 获取每日插入的数据(大约 10MB)并将其全部放入 Hadoop。我还应该补充一点,每个 MongoDB 节点和 Hadoop 节点都共享同一台服务器。

最佳答案

MongoDB Connector for Hadoop直接从 MongoDB 读取数据。可以配置多个input splits并行读取同一集合中的数据。 Mapper 和 Reducer 作业由 Hadoop 的 Map/Reduce 引擎运行,而不是 MongoDB 的 Map/Reduce。

如果您的数据估计是正确的(每天只有 10MB?),那么摄取的量很小,如果您没有计算任何输入拆分,工作可能会更快。

您应该警惕 Hadoop 和 MongoDB 在同一台服务器上竞争资源,因为内存或磁盘争用会影响数据传输的效率。

关于mongodb - 将数据从 MongoDB 发送到 Hadoop 的有效方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20967836/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com