- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
User has many Profiles
(Limit - no more than one of each profile type per user, no duplicates)
Profiles has many Attribute Values
(A user can have as many or few attribute values as they like)
Attributes belong to a category
(No overlap. This controls which attribute values a profile can have)
我相信通过堆栈交换,您可以为一个用户拥有多个配置文件,因为每个交换站点的配置文件都不同?在这个问题中:
配置文件和属性只是在两个级别上对属性值进行分组的方法。没有分组(在 2. 之后的权重中需要分组),关系只是 User hasMany Attribute Values。
给每个用户相对于其他用户的相似度评分。
花哨的代码和有用的功能很棒,但我真的很想完全理解如何完成这些任务,所以我认为通用伪代码是最好的。
谢谢!
最佳答案
首先,你应该记住 everything should be made as simple as possible, but not simpler .这条规则适用于许多领域,但在语义、相似性和机器学习等方面它是必不可少的。使用多层抽象(属性 -> 类别 -> 配置文件 -> 用户)会使你的模型更难理解和推理,所以我会尽量省略它。这意味着最好在用户和属性之间保持直接关系。因此,基本上您的用户应该表示为向量,其中每个变量(向量元素)代表单个属性。
如果您选择这样的表示,请确保所有属性都有意义并且在此上下文中具有适当的类型。例如,您可以将 5 种视频类型表示为 5 个不同的变量,但不能表示为 1 到 5 之间的数字,因为余弦相似度(和大多数其他算法)会错误地对待它们(例如乘以惊悚片,表示为 2,乘以喜剧,表示为5,这实际上没有意义)。
如果适用,可以使用属性之间的距离。尽管我很难在您的设置中举出示例。
此时您应该停止阅读并尝试一下:将用户简单表示为属性向量和余弦相似度。如果它运作良好,请保持原样 - 使模型过于复杂从来都不是一件好事。
如果模型表现不佳,请尝试了解原因。你有足够的相关属性吗?还是有太多嘈杂的变量只会让情况变得更糟?或者某些属性真的应该比其他属性更重要吗?根据这些问题,您可能想要:
让我更详细地描述最后一点。而不是简单的余弦相似度,它看起来像这样:
cos(x, y) = x[0]*y[0] + x[1]*y[1] + ... + x[n]*y[n]
你可以使用加权版本:
cos(x, y) = w[0]*x[0]*y[0] + w[1]*x[1]*y[1] + ... + w[2]*x[2]*y[2]
找到此类权重的标准方法是使用某种回归(线性回归是最流行的)。通常,您收集数据集 (X, y)
,其中 X
是一个矩阵,其中行包含您的数据向量(例如,出售房屋的详细信息)和 y
是某种“正确答案”(例如,房子的实际售价)。但是,在您的情况下,用户向量没有正确答案。实际上,您可以仅根据它们的相似性来定义正确答案。那为什么不呢?只需让 X
的每一行成为 2 个用户向量的组合,以及 y
的相应元素 - 它们之间的相似性(你应该自己为训练数据集分配它)。例如:
X[k] = [ user_i[0]*user_j[0], user_i[1]*user_j[1], ..., user_i[n]*user_j[n] ]
y[k] = .75 // or whatever you assign to it
HTH
关于algorithm - 哪种算法/实现根据用户选择的距离属性来加权用户之间的相似性?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21710330/
我在一本书(Interview Question)中读到这个问题,想在这里详细讨论这个问题。请点亮它。 问题如下:- 隐私和匿名化 马萨诸塞州集团保险委员会早在 1990 年代中期就有一个绝妙的主意
我最近接受了一次面试,面试官给了我一些伪代码并提出了相关问题。不幸的是,由于准备不足,我无法回答他的问题。由于时间关系,我无法向他请教该问题的解决方案。如果有人可以指导我并帮助我理解问题,以便我可以改
这是我的代码 public int getDist(Node root, int value) { if (root == null && value !=0) return
就效率而言,Strassen 算法应该停止递归并应用乘法的最佳交叉点是多少? 我知道这与具体的实现和硬件密切相关,但对于一般情况应该有某种指南或某人的一些实验结果。 在网上搜索了一下,问了一些他们认为
我想学习一些关于分布式算法的知识,所以我正在寻找任何书籍推荐。我对理论书籍更感兴趣,因为实现只是个人喜好问题(我可能会使用 erlang(或 c#))。但另一方面,我不想对算法进行原始的数学分析。只是
我想知道你们中有多少人实现了计算机科学的“ classical algorithms ”,例如 Dijkstra's algorithm或现实世界中的数据结构(例如二叉搜索树),而不是学术项目? 当有
我正在解决旧编程竞赛中的一些示例问题。在这个问题中,我们得到了我们有多少调酒师以及他们知道哪些食谱的信息。制作每杯鸡尾酒需要 1 分钟,我们需要使用所有调酒师计算是否可以在 5 分钟内完成订单。 解决
关闭。这个问题是opinion-based .它目前不接受答案。 想要改进这个问题? 更新问题,以便 editing this post 可以用事实和引用来回答它. 关闭 8 年前。 Improve
我开始学习 Nodejs,但我被困在中间的某个地方。我从 npm 安装了一个新库,它是 express -jwt ,它在运行后显示某种错误。附上代码和错误日志,请帮助我! const jwt = re
我有一个证书,其中签名算法显示“sha256rsa”,但指纹算法显示“sha1”。我的证书 SHA1/SHA2 的标识是什么? 谢谢! 最佳答案 TL;TR:签名和指纹是完全不同的东西。对于证书的强度
我目前在我的大学学习数据结构类(class),并且在之前的类(class)中做过一些算法分析,但这是我在之前的类(class)中遇到的最困难的部分。我们现在将在我的数据结构类(class)中学习算法分
有一个由 N 个 1x1 方格组成的区域,并且该区域的所有部分都是相连的(没有任何方格无法到达的方格)。 下面是一些面积的例子。 我想在这个区域中选择一些方块,并且两个相邻的方块不能一起选择(对角接触
我有一些多边形形状的点列表,我想将其包含在我页面上的 Google map 中。 我已经从原始数据中删除了尽可能多的不必要的多边形,现在我剩下大约 12 个,但它们非常详细以至于导致了问题。现在我的文
我目前正在实现 Marching Squares用于计算等高线曲线,我对此处提到的位移位的使用有疑问 Compose the 4 bits at the corners of the cell to
我正在尝试针对给定算法的约束满足问题实现此递归回溯函数: function BACKTRACKING-SEARCH(csp) returns solution/failure return R
是否有包含反函数的库? 作为项目的一部分,我目前正在研究测向算法。我正在使用巴特利特相关性。在 Bartlett 相关性中,我需要将已经是 3 次矩阵乘法(包括 Hermitian 转置)的分子除以作
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 8 年前。 Improve
问题的链接是UVA - 1394 : And There Was One . 朴素的算法是扫描整个数组并在每次迭代中标记第 k 个元素并在最后停止:这需要 O(n^2) 时间。 我搜索了一种替代算法并
COM 中创建 GUID 的函数 (CoCreateGUID) 使用“分散唯一性算法”,但我的问题是,它是什么? 谁能解释一下? 最佳答案 一种生成 ID 的方法,该 ID 具有一定的唯一性保证,而不
在做一个项目时我遇到了这个问题,我将在这个问题的实际领域之外重新措辞(我想我可以谈论烟花的口径和形状,但这会使理解更加复杂).我正在寻找一种(可能是近似的)算法来解决它。 我有 n 个不同大小的容器,
我是一名优秀的程序员,十分优秀!