gpt4 book ai didi

mongodb - 在 Mongo 上进行大数据查询的最佳方式是什么?

转载 作者:可可西里 更新时间:2023-11-01 10:44:37 26 4
gpt4 key购买 nike

Mongo 支持 Map/Reduce 查询,但它们似乎不是 Hadoop 意义上的 map reduce(并行运行)。在庞大的 Mongo 数据库上运行查询的最佳方式是什么?我需要将其导出到其他地方吗?

最佳答案

根据您具体需要做什么,您的选择(同时留在 Mongo 中)是:

1) 继续在 Mongo 中使用 map/reduce,但为了 m/r 目的启动一些辅助。这是并行化 map reduce 的一种比较简单的方法。但是,有一些限制,您只能使用“out:inline”选项,因此结果需要大约 16MB 或更少。这只有在您还没有分片的情况下才真正可行。

2) 查看 aggregation framework即将推出 2.2(2.2.0-rc0 已发布,我们发现它在 MongoHQ 中非常稳定)。这在数据库级别上得到了更好的优化,主要是让您远离 janky javascript 引擎,并且是 10gen 添加的更有趣的功能之一。它还将在分片环境中工作。

对于上述任一情况,您需要确保有足够的 RAM(或非常快的磁盘)来保存所有输入数据、中间步骤和结果。否则,您会受到 IO 速度的限制,无法充分利用 CPU。

如果你想走出 Mongo,你可以试试 Mongo Hadoop适配器。 Hadoop 是执行 map/reduce 的更好方法,这将使您可以使用 Mongo 数据作为输入。不过,这在操作上可能很复杂,这意味着要么需要付出高昂的努力,要么很脆弱。

关于mongodb - 在 Mongo 上进行大数据查询的最佳方式是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11588158/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com