mongodb - MongoDB协助推荐-6ren

mongodb - MongoDB协助推荐

转载作者：可可西里更新时间：2023-11-01 10:27:07

我有一个3集合架构，如下所示：
用户收藏有关于他们的朋友和每个艺术家的收听计数（权重）的信息

{
    user_id : 1,
    Friends : [3,5,6],
    Artists : [
        {artist_id: 10 , weight : 345},
        {artist_id: 17 , weight : 378}
    ]
}

艺术家集合模式包含有关艺术家的名称、不同用户给他们的标记的信息。

{
    artistID : 56,
    name : "Ed Sheeran",
    user_tag : [
       {user_id : 2, tag_id : 6},
       {user_id : 2, tag_id : 5},
       {user_id : 3, tag_id : 7}
    ]
}

包含各种标记信息的标记集合。

{tag_id : 3, tag_value : "HipHop"}

我想使用以下规则为用户提供艺术家推荐：
规则1：找到用户的朋友而不是用户所听的艺术家，按朋友的收听次数之和排序。
规则2：选择用户使用的任何标签，找到该标签不在用户监听列表中的所有艺术家，并按唯一监听者的数量排序。
有谁能帮我写一个查询来执行上面的操作吗？

最佳答案

您需要在这里做一些事情来获得最终结果，但第一阶段相对简单。获取您提供的用户对象：

var user = {
    user_id : 1,
    Friends : [3,5,6],
    Artists : [
        {artist_id: 10 , weight : 345},
        {artist_id: 17 , weight : 378}
    ]
};

现在假设您已经检索了该数据，那么这就归结为为为每个“朋友”找到相同的结构，并将“艺术家”的数组内容过滤到一个单独的列表中。想必每一个“重量”在这里也都会被考虑在内。
这是一个简单的聚合操作，它将首先筛选出给定用户列表中已存在的艺术家：

var artists = user.Artists.map(function(artist) { return artist.artist_id });

User.aggregate(
    [ 
        // Find possible friends without all the same artists
        { "$match": {
            "user_id": { "$in": user.Friends },
            "Artists.artist_id": { "$nin": artists }
        }},
        // Pre-filter the artists already in the user list
        { "$project": 
            "Artists": {
                "$setDifference": [
                    { "$map": {
                        "input": "$Artists",
                        "as": "$el",
                        "in": {
                            "$cond": [
                                "$anyElementTrue": {
                                    "$map": {
                                        "input": artists,
                                        "as": "artist",
                                        "in": { "$eq": [ "$$artist", "$el.artist_id" ] }
                                    }
                                },
                                false,
                                "$$el"
                            ]
                        } 
                    }}
                    [false]
                ]
            } 
        }},
        // Unwind the reduced array
        { "$unwind": "$Artists" },
        // Group back by each artist and sum weights
        { "$group": {
            "_id": "$Artists.artist_id",
            "weight": { "$sum": "$Artists.weight" }
        }},
        // Sort the results by weight
        { "$sort": { "weight": -1 } }
    ],
    function(err,results) {
        // more to come here
    }
);

“预过滤”是这里唯一真正棘手的部分。您只需 $unwind数组并再次 $match即可筛选出不需要的条目。即使我们想在稍后将结果合并起来，但从数组中“首先”删除结果会更有效，因此扩展的空间更小。
因此在这里， $unwind操作符允许检查用户“艺术家”数组的每个元素，也允许与筛选的“用户”艺术家列表进行比较，以返回所需的详细信息。 $map实际上用于“过滤”未作为数组内容返回但作为 $setDifference返回的任何结果。
在那之后，只有 false来反规范化数组中的内容，而 $unwind来合并每个艺术家的总数。为了好玩，我们使用 $group来显示列表是按所需的顺序返回的，但在稍后阶段不需要这样做。
这至少是其中的一部分，因为最终的列表应该只是用户自己列表中没有的其他艺术家，并根据可能出现在多个好友上的任何艺术家的总和“权重”进行排序。
下一部分将需要来自“艺术家”集合的数据，以便考虑听众的数量。虽然Mongoose有一个 $sort方法，但您确实不希望在这里看到这个，因为您正在寻找“独特的用户”计数。这意味着另一个聚合实现，以便为每个艺术家获取这些不同的计数。
在上一个聚合操作的结果列表中，您将使用如下 .populate()值：

// First get just an array of artist id's
var artists = results.map(function(artist) {
    return artist._id;
});

Artist.aggregate(
    [
        // Match artists
        { "$match": {
            "artistID": { "$in": artists }
        }},
        // Project with weight for distinct users
        { "$project": {
            "_id": "$artistID",
            "weight": {
                "$multiply": [
                    { "$size": {
                        "$setUnion": [
                            { "$map": {
                                "input": "$user_tag",
                                "as": "tag",
                                "in": "$$tag.user_id"
                            }},
                            []
                        ]
                    }},
                    10
                ]
            }
        }}
    ],
    function(err,results) {
        // more later
    }
);

这里，这个技巧与 $_id一起完成，对输入到 $map的值进行类似的转换，使它们成为一个唯一的列表。然后应用 $setUnion运算符来找出该列表有多大。另一种数学方法是，当对先前结果中已经记录的权重应用时，给这个数字一些含义。
当然你需要以某种方式把所有这些结合起来，因为现在只有两组不同的结果。基本过程是一个“哈希表”，其中唯一的“艺术家”id值用作键，并将“权重”值组合在一起。
你可以用很多方法来实现这一点，但是由于人们希望对合并后的结果进行“排序”，所以我更喜欢“mongodbish”，因为它遵循了你已经习惯的基本方法。
实现这一点的一种简便方法是使用 $size，它提供了一个“内存中”存储，它使用与mongodb集合的读写方法大致相同的类型。
如果需要将实际集合用于大型结果，这也可以很好地扩展，因为所有原则都保持不变。
第一个聚合操作将新数据插入存储区
第二个聚合“更新”数据并增加“权重”字段
作为一个完整的函数列表，在 nedb库的一些其他帮助下，它将如下所示：

function GetUserRecommendations(userId,callback) {

    var async = require('async')
        DataStore = require('nedb');

    User.findOne({ "user_id": user_id},function(err,user) {
        if (err) callback(err);

        var artists = user.Artists.map(function(artist) {
            return artist.artist_id;
        });

        async.waterfall(
            [
                function(callback) {
                    var pipeline =  [ 
                        // Find possible friends without all the same artists
                        { "$match": {
                            "user_id": { "$in": user.Friends },
                            "Artists.artist_id": { "$nin": artists }
                        }},
                        // Pre-filter the artists already in the user list
                        { "$project": 
                            "Artists": {
                                "$setDifference": [
                                    { "$map": {
                                        "input": "$Artists",
                                        "as": "$el",
                                        "in": {
                                            "$cond": [
                                                "$anyElementTrue": {
                                                    "$map": {
                                                        "input": artists,
                                                        "as": "artist",
                                                        "in": { "$eq": [ "$$artist", "$el.artist_id" ] }
                                                    }
                                                },
                                                false,
                                                "$$el"
                                            ]
                                        } 
                                    }}
                                    [false]
                                ]
                            } 
                        }},
                        // Unwind the reduced array
                        { "$unwind": "$Artists" },
                        // Group back by each artist and sum weights
                        { "$group": {
                            "_id": "$Artists.artist_id",
                            "weight": { "$sum": "$Artists.weight" }
                        }},
                        // Sort the results by weight
                        { "$sort": { "weight": -1 } }
                    ];

                    User.aggregate(pipeline, function(err,results) {
                        if (err) callback(err);

                        async.each(
                            results,
                            function(result,callback) {
                                result.artist_id = result._id;
                                delete result._id;
                                DataStore.insert(result,callback);
                            },
                            function(err)
                                callback(err,results);
                            }
                        );

                    });
                },
                function(results,callback) {

                    var artists = results.map(function(artist) {
                        return artist.artist_id;  // note that we renamed this
                    });

                    var pipeline = [
                        // Match artists
                        { "$match": {
                            "artistID": { "$in": artists }
                        }},
                        // Project with weight for distinct users
                        { "$project": {
                            "_id": "$artistID",
                            "weight": {
                                "$multiply": [
                                    { "$size": {
                                        "$setUnion": [
                                            { "$map": {
                                                "input": "$user_tag",
                                                "as": "tag",
                                                "in": "$$tag.user_id"
                                            }},
                                            []
                                        ]
                                    }},
                                    10
                                ]
                            }
                        }}
                    ];

                    Artist.aggregate(pipeline,function(err,results) {
                        if (err) callback(err);
                        async.each(
                            results,
                            function(result,callback) {
                                result.artist_id = result._id;
                                delete result._id;
                                DataStore.update(
                                    { "artist_id": result.artist_id },
                                    { "$inc": { "weight": result.weight } },
                                    callback
                                );
                            },
                            function(err) {
                                callback(err);
                            }
                        );
                    });
                }
            ],
            function(err) {
                if (err) callback(err);     // callback with any errors
                // else fetch the combined results and sort to callback
                DataStore.find({}).sort({ "weight": -1 }).exec(callback);
            }
        );

    });

}

因此，在匹配初始源用户对象之后，这些值被传递到第一个聚合函数中，该聚合函数以串行方式执行，并使用 async传递其结果。
在这之前，尽管聚合结果被添加到带有常规 async.waterfall语句的 DataStore中，但要注意将 .insert()字段重命名为 _id除了它自己生成的 nedb值之外，其他都不喜欢。每个结果都从聚合结果中插入 _id和 artist_id属性。
然后将该列表传递给第二个聚合操作，该操作将返回每个指定的“艺术家”，并根据不同的用户大小计算“权重”。每个艺术家的 weight上都有相同的 .update()语句的“updated”，并递增“weight”字段。
一切顺利，最后的操作是通过组合的“权重”将结果 DataStore和 .find()返回给函数的传入回调。
所以你可以这样使用它：

GetUserRecommendations(1,function(err,results) {
   // results is the sorted list
});

它将返回当前不在该用户列表中但在其好友列表中的所有艺术家，并按好友收听计数加上该艺术家的不同用户数的分数的组合权重排序。
这是处理来自两个不同集合的数据的方式，您需要将它们组合成具有各种聚合细节的单个结果。它是多个查询和一个工作空间，但也是MongoDB Philosopy的一部分，这样的操作比将它们扔到数据库中“连接”结果更好。

关于mongodb - MongoDB协助推荐，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32857398/

文章推荐： c# - 如何在 Windows 8 中创建比屏幕大的 View

文章推荐： mysql - 如何将 vb.net 日期保存到没有 0000-00-00 的 mysql 日期

文章推荐： c# - 需要数学库来操作序列/范围

mongodb - 使用 mongodb+srv 连接到部署为有状态集的 mongodb
我已经在 kubernetes 中部署了一个 3 pod mongodb statefulset，并且我正在尝试使用新的 mongodb+srv 连接字符串 (mongodb 3.6) 连接到具有 S
mongodb - 如何使用 MongoDB Atlas 连接 MongoDB
我已经创建了 MongoDB Atlas 帐户，并尝试连接。但出现以下错误。 MongoDB 连接错误 MongoNetworkError: 首次连接时无法连接到服务器 [cluster0-shard
mongodb - JsonLD+MongoDB : Store JsonLD in MongoDB
我正在使用 Node-WebKit 创建桌面应用程序。该应用程序基本上是创建文档(员工日常工作的详细信息)，任何注册用户都可以对这些文档发表评论。我正在创建的文档将被分成几个部分。用户将对特定部分发表
mongodb - 服务 'MongoDB Server' (MongoDB) 启动失败
我正在尝试使用官方网站上的安装程序在我的本地机器上安装 mongo DB。但是我不断收到这条消息，有人可以帮忙吗？我试过提供的解决方案 here但没有帮助。最佳答案我建议执行以下操作: 按 Wi
mongodb - 如何使用 MongoDB 指南针删除 MongoDB 集合中选定的多条记录
我对 MongoDB 和 MongoDB Compass 非常陌生。我的客户集合中有大约 1000 条记录。如何通过 MongoDB 指南针一次删除所有记录。非常感谢，最佳答案您可以使用 Mo
mongodb - mongodb 和 mongodb-server 的区别
当我尝试在我的 Ubuntu 机器中安装 mongodb 时，apt-get 会显示以下选项 mongodb mongodb-clients mongodb-dev mongodb-server 谁能
mongodb - 如何将 mongodb 客户端连接到本地 Meteor MongoDB
如何将 Robomongo(或任何其他 mongodb 客户端)连接到由本地 Meteor 应用程序创建的 mongodb 实例？最佳答案确保 Meteor 正在本地主机上运行。打开终端窗口并运行
mongodb - 频率表生成 - MongoDB
我需要在 MongoDB 中生成一个简单的频率表。假设我在名为 books 的集合中有以下文档。 { "_id": 1, genre: [ "Fantasy", "Crime"
mongodb - mongodb mapreduce中的where条件
我如何在 mongos mapreduce 中指定一个条件，就像我们在 mongos group 函数中所做的那样。我的数据是这样的 {lid:1000, age:23}, {lid:3000, a
mongodb - 从 mongodb shell 运行具有 mongodb 查询的脚本
我的 mongodb 数据库文档中有几个 ID。我需要通过脚本在这些 ID 上创建索引，这样我就不必一次又一次地运行 ensureIndex 命令。 db.getCollection("element
mongodb - 比较嵌套数组中的对象 - mongoDB
在我的数据库中，每个包含项目的文档中都有一个嵌套的元素数组，格式如下: elements:[ { "elem_id": 12, items: [ {"i_id": 1
mongodb - MongoDB 上的时区查询
我正在构建一个应用程序，其中用户可以位于不同的时区，并且我运行的查询对他们的时区很敏感。我遇到的问题是 MongoDB 似乎在查询时忽略了时区! 这是日期字段“2019-09-29T23:52:13
mongodb - 为什么当我添加新集合时只有一个分片获取数据？ - MongoDB
我正在研究使用 mongodb 进行分片，我有以下结构: 1 个 Mongod 到我的 ConfigServer，在 ReplicaSet 中只有 1 个成员 2 个分片，每个分片在 ReplicaS
mongodb - mongoDB 中是否可以使用循环对象引用？
我正在尝试获取一个 mongoDB 对象，例如 Friend1 包含另一个 mongoDB 对象 Friend2，该对象又包含第一个对象 Friend1本质上使它成为一个循环对象引用。要么这样，要么
mongodb - 通过命令行正确卸载 MongoDB
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题？ Update the question所以它是on-topic对于堆栈溢出。 9年前关闭。 Improve this que
mongodb - 无法通过终端使用身份验证数据连接 mongodb
Mongo 版本 5.0.2。 Ubuntu 20.0 我在本地主机中启用了 MongoDB 连接的安全性。我正在尝试通过以下命令使用身份验证详细信息连接我的本地主机 MongoDBmongo ad
mongodb - 当配置实例使用与数据实例相同的二进制文件时升级 Mongodb
我即将将分片的 MongoDB 环境从 2.0.7 升级到 2.2.9，最终我想升级到 2.4.9，但显然我需要通过 2.2 来完成。 2.2 的发行说明声明配置服务器应该首先升级其二进制文件，然后是
mongodb - 无法远程连接到 mongodb
目前，我无法在我的虚拟 Ubuntu 机器上远程连接 mongodb 服务器。我无法使用在我的 Windows PC 上运行的 Robomongo 客户端连接，该 PC 也运行 vm。这是两台电脑的
mongodb - 如何从 mongodb compass 连接 mongodb 集群？
我创建了一个免费的 mongodb 集群。我创建了一个用户，设置了与 mongodb compass 的连接，复制了连接字符串，然后打开了我的 mongodb compass。将复制的字符串粘贴到那里
mongodb - MongoDB 索引名称
我使用 java 代码创建了 mongo 数据库集合索引 dbCollection.createIndex("accountNumber"); 当我看到索引使用 db.accounts.getInde

可可西里

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

mongodb - MongoDB协助推荐