gpt4 book ai didi

MongoDB MapReduce——是否有聚合替代方案?

转载 作者:可可西里 更新时间:2023-11-01 10:43:44 28 4
gpt4 key购买 nike

我有一个集合,其中包含使用类似这样的架构的文档(一些成员已编辑):

{
"_id" : ObjectId("539f41a95d1887b57ab78bea"),
"answers" : {
"ratings" : {
"positivity" : [
2,
3,
5
],
"activity" : [
4,
4,
3
],
},
"media" : [
ObjectId("537ea185df872bb71e4df270"),
ObjectId("537ea185df872bb71e4df275"),
ObjectId("537ea185df872bb71e4df272")
]
}

在此架构中,第一、第二和第三个positivity 评级分别对应于media 数组中的第一个、第二个和第三个条目。 activity 评级也是如此。我需要针对集合中所有文档的关联 media 对象计算 positivityactivity 评级的统计数据。现在,我正在使用 MapReduce 来做这件事。不过,我想通过聚合管道来实现这一点。

理想情况下,我想$unwind mediaanswers.ratings.positivityanswers.ratings。 activity 数组,因此我最终得到,例如,基于前面示例的以下三个文档:

[
{
"_id" : ObjectId("539f41a95d1887b57ab78bea"),
"answers" : {
"ratings" : {
"positivity" : 2,
"activity" : 4
}
},
"media" : ObjectId("537ea185df872bb71e4df270")
},
{
"_id" : ObjectId("539f41a95d1887b57ab78bea"),
"answers" : {
"ratings" : {
"positivity" : 3
"activity" : 4
}
},
"media" : ObjectId("537ea185df872bb71e4df275")
},
{
"_id" : ObjectId("539f41a95d1887b57ab78bea"),
"answers" : {
"ratings" : {
"positivity" : 5
"activity" : 3
}
},
"media" : ObjectId("537ea185df872bb71e4df272")
}
]

有什么办法可以做到这一点吗?

最佳答案

当前的聚合框架不允许您这样做。能够展开已知大小相同的多个数组并为每个数组的第 i 个值创建一个文档将是一个很好的功能。

如果你想使用聚合框架,你需要稍微改变你的模式。例如采用以下文档模式:

{
"_id" : ObjectId("539f41a95d1887b57ab78bea"),
"answers" : {
"ratings" : {
"positivity" : [
{k:1, v:2},
{k:2, v:3},
{k:3, v:5}
],
"activity" : [
{k:1, v:4},
{k:2, v:4},
{k:3, v:3}
],
}},
"media" : [
{k:1, v:ObjectId("537ea185df872bb71e4df270")},
{k:2, v:ObjectId("537ea185df872bb71e4df275")},
{k:3, v:ObjectId("537ea185df872bb71e4df272")}
]
}

这样做实际上是将索引添加到数组中的对象。在此之后,只需展开所有数组并匹配键即可。

db.test.aggregate([{$unwind:"$media"},
{$unwind:"$answers.ratings.positivity"},
{$unwind:"$answers.ratings.activity"},
{$project:{"media":1, "answers.ratings.positivity":1,"answers.ratings.activity":1,
include:{$and:[
{$eq:["$media.k", "$answers.ratings.positivity.k"]},
{$eq:["$media.k", "$answers.ratings.activity.k"]}
]}}
},
{$match:{include:true}}])

输出是:

[ 
{
"_id" : ObjectId("539f41a95d1887b57ab78bea"),
"answers" : {
"ratings" : {
"positivity" : {
"k" : 1,
"v" : 2
},
"activity" : {
"k" : 1,
"v" : 4
}
}
},
"media" : {
"k" : 1,
"v" : ObjectId("537ea185df872bb71e4df270")
},
"include" : true
},
{
"_id" : ObjectId("539f41a95d1887b57ab78bea"),
"answers" : {
"ratings" : {
"positivity" : {
"k" : 2,
"v" : 3
},
"activity" : {
"k" : 2,
"v" : 4
}
}
},
"media" : {
"k" : 2,
"v" : ObjectId("537ea185df872bb71e4df275")
},
"include" : true
},
{
"_id" : ObjectId("539f41a95d1887b57ab78bea"),
"answers" : {
"ratings" : {
"positivity" : {
"k" : 3,
"v" : 5
},
"activity" : {
"k" : 3,
"v" : 3
}
}
},
"media" : {
"k" : 3,
"v" : ObjectId("537ea185df872bb71e4df272")
},
"include" : true
}
]

这样做会产生大量额外的文档开销,并且可能比您当前的 MapReduce 实现速度慢。您需要运行测试来检查这一点。为此所需的计算将根据这三个数组的大小以立方方式增长。这一点也应该牢记。

关于MongoDB MapReduce——是否有聚合替代方案?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24312932/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com