gpt4 book ai didi

mongodb - 如何使用 MapReduce 进行 k 均值空间聚类

转载 作者:可可西里 更新时间:2023-11-01 09:17:22 24 4
gpt4 key购买 nike

我是 mongodb 和 map-reduce 的新手,想通过使用 k-means 空间聚类来评估空间数据。我找到了这个 article这似乎很好地描述了算法,但我不知道如何将其转换为 mongo shell 脚本。假设我的数据如下所示:

{
_id: ObjectID(),
loc: {x: <longitude>, y: <latitude>},
user: <userid>
}

我可以使用 { k = sqrt(n/2) } ,其中 n 是样本数。我可以使用聚合来获取数据的边界范围和计数等。我有点迷失了对聚类点文件的引用,我认为这只是另一个集合,我不知道如何进行迭代或者是否可以在客户端或数据库中完成?

好的,我在这方面取得了一些进展,因为我已经生成了初始随机点数组,我需要在 map-reduce 阶段计算最小二乘和,但我不知道如何通过这些到 map 功能。我试着编写了 map 函数:

var mapCluster = function() {
var key = -1;
var sos = 0;
var pos;
for (var i=0; i<pts.length; i++) {
var dx = pts[i][0] - this.arguments.pos[0];
var dy = pts[i][1] - this.arguments.pos[1];
var sumOfSquare = dx*dx + dy*dy;
if (i == 0 || sumOfSquares < sos) {
key = i;
sos = sumOfSquares;
pos = this.arguments.pos;
}
}
emit(key, pos);
};

在这种情况下,聚类点就像这样,这可能行不通:

var pts = [ [x,y], [x1,y1], ... ];

因此对于每个 mr 迭代,我们将所有收集点与该数组进行比较,并发出我们最接近的点的索引以及收集点的位置,然后在 reduce 函数中与每个点相关联的点的平均值索引将用于创建新的聚类点位置。然后在 finialize 函数中我可以更新集群文档。

我假设我可以在集群文档上执行 findOne() 以在 map 函数中加载集群点,但我们是否希望在每次调用 map 时加载该文档?或者有没有办法为每次迭代加载一次?

所以看起来您可以像这样使用范围变量来执行上述操作:

db.main.mapReduce( mapCluster, mapReduce, { scope: { pnts: pnts, ... }} );

您必须注意作用域中的变量名称,因为它们位于 map、reduce 和 finialize 函数的作用域中,它们可能会与现有变量名称发生冲突。

最佳答案

你试过什么?

请注意,您将需要不止一轮的映射器。

通过在 MR 上运行 k-means 的规范方法,您需要一个映射器/缩减器每次迭代

那么,你能不能尝试只写一次迭代的 map 和 reduce steps?

关于mongodb - 如何使用 MapReduce 进行 k 均值空间聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14915416/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com