- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
使用Python 3.6。使用曼哈顿距离进行相似性测量时,我没有得到逻辑结果。即使与 PIL 逊相关性和欧几里德相关性的结果进行比较,欧几里德相关性和曼哈顿相关性的单位也看起来不一样?
我正在研究一个粗略的推荐模型,该模型涉及通过测量首选项目 X 的用户评分与同一项目的其他用户评分之间的相似性来推荐相似的项目,并推荐与发现强匹配的其他用户的项目与提出请求的用户
我得到的结果是
Pearson:
[('Men in Black II', 0.12754201365635218), ('Fried Green Tomatoes', 0.11361596992427059), ('Miami Vice', 0.11068770878125743), ('The Dark', 0.11035867466994702), ('Comanche Station', 0.10994620915146613), ('Terminator 3: Rise of the Machines', 0.10802689932238932), ('Stand by Me', 0.10797224471029637), ('Dancer in the Dark', 0.10241410378191894), ('Los Olvidados', 0.10044018848844877), ('A Shot in the Dark', 0.10036315249837004)]
Euclidean:
[('...And the Pursuit of Happiness', 1.0), ('12 Angry Men', 1.0), ('4 Little Girls', 1.0), ('4교시 추리영역', 1.0), ('8MM', 1.0), ('A Band Called Death', 1.0), ('A Blank on the Map', 1.0), ('A Dandy in Aspic', 1.0), ('A Date with Judy', 1.0), ('A Zona', 1.0)]
Manhattan:
[('...And the Pursuit of Happiness', 1.0), ('12 Angry Men', 1.0), ('4 Little Girls', 1.0), ('4교시 추리영역', 1.0), ('8MM', 1.0), ('A Band Called Death', 1.0), ('A Blank on the Map', 1.0), ('A Dandy in Aspic', 1.0), ('A Date with Judy', 1.0), ('A Zona', 1.0)]
Cosine:
[('...And the Pursuit of Happiness', 1.0), ('4 Little Girls', 1.0), ('4교시 추리영역', 1.0), ('8MM', 1.0), ('A Band Called Death', 1.0), ('A Blank on the Map', 1.0), ('A Dandy in Aspic', 1.0), ('A Date with Judy', 1.0), ('A Zona', 1.0), ('A.I. Artificial Intelligence', 1.0)]
最佳答案
我无法告诉你为什么在没有看到代码的情况下会得到奇怪的结果,但是,我可以给你一些解释两个向量之间的 PIL 逊相似度、欧几里得相似度和曼哈顿相似度之间的差异。
Pearson:这可以被认为是两个向量之间的余弦,因此是尺度不变的。因此,如果两个向量相同,但缩放比例不同,则为 1。对于电影推荐,我假设这意味着如果我对电影 1: 2/5、电影 2: 1/5 和电影 3: 2/5 进行评分,并且您对相同的电影分别评分为 4/5、2/5 和 4/5,那么我们就会向我们推荐相同的电影。
Euclid:这是测量向量之间距离的常规方法。请注意,大的差异会被夸大,小的差异会被忽略(小数字的平方变成很小的数字,大数字的平方变成巨大的数字)。因此,如果两个向量几乎处处一致,则它们将被视为非常相似。此外,规模也很重要,上面的例子会给出相对较大的差异。
曼哈顿:这与欧几里得的规模重要性相似,但不同之处在于它不会忽略微小的差异。如果两个向量几乎处处一致,则曼哈顿距离将会很大。此外,单个指标的巨大差异不会像欧几里德距离那样对最终相似性产生那么大的影响。
我认为曼哈顿的小差异加起来会成为大差异,而不是 PIL 逊和欧几里得,这才是您困惑的根源。
好吧,在进一步查看您的代码后,我发现您使用 1/(1+euclidean_distance)
表示欧几里得相似度,但使用 manhattan_distance
表示曼哈顿相似度。试试这个吧
def Manhattan(x, y):
return 1/(1+np.sum(np.abs(x-y)))
Ps.抱歉,有任何拼写错误,我是在手机上。希望一切仍然可以理解。
Pps。请注意,您可以为 x 和 y 之间的欧几里德距离编写 np.linalg.norm(x-y)
以及 np.linalg.norm(x-y) , 1)
表示 x 和 y 之间的曼哈顿距离(而不是处理 sqrt(sum((x-y)**2))
和 np.sum(np.abs( x-y))
.
关于python - PIL 逊 vs 欧几里得 vs 曼哈顿结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49894734/
我是 Mercurial 的新手,并且不知何故仍处于评估过程中,所以这四个概念对我来说有点困惑。有些被提到等同于 Git 的 Staging/Index 概念,有些甚至比 Git 的 Staging
关闭。这个问题需要更多focused .它目前不接受答案。 想改善这个问题吗?更新问题,使其仅关注一个问题 editing this post . 6 个月前关闭。 Improve this ques
任何人都可以给我详细信息吗? 例如? #ID 是属性、特性、选择器还是 anchor ? 默认属性和默认属性是不同的东西吗? 这些都是标签还是元素? 我们将对此说些什么 这个 ..... 还有这些
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this qu
我有一个由 Javascript 填充的下拉列表。 在决定加载时显示的默认值时,我意识到以下属性显示的值完全相同: innerText innerHTML label text textContent
我可以知道每个 Exec 之间有什么区别吗? , ExecWait , ExecShell , nsExec::Exec , nsExec::ExecToLog, nsExec::ExecToStac
当您处于版本 1 和版本 2 之间时,您会如何维护您的软件? 从我的角度来看,“补丁”、“修补程序”、“维护版本”、“服务包”等术语都很模糊,根据与您交谈的对象不同,定义也不同。 您如何称呼版本之间的
我刚刚发现在 ES6 中有一个新的数学方法:Math.trunc . 我在 MDN article 中阅读了它的描述。 , 听起来像使用 |0 . 此外,>0 , &-1 , ^0也做类似的事情(感谢
我想知道我的 StackPanel 所有项目的高度。 有什么区别: Height - 获取或设置元素的建议高度。 ActualHeight - 获取该元素的渲染高度。 (只读) ExtentHeigh
关闭。这个问题是off-topic .它目前不接受答案。 想改进这个问题吗? Update the question所以它是on-topic用于堆栈溢出。 关闭 9 年前。 Improve this
我对所有声称以某种方式阻止计算的内置 Mathematica 函数感到困惑:Unevaluated、Defer、Hold ,以及超过 6 个 Hold* 形式。 Mathematica 文档只是单独解
我什至不确定正确的术语,所以让我从我的目标开始:拥有一个简单的应用程序(“Data Doler”),它只会将大量数据从文件读取到内存中,然后提供服务将该数据切片到名为“Data Lapper”的单个多
我刚刚开始在我的项目中使用 Elasticsearch,我想像 sql 关键字一样搜索 '喜欢%' 做。 谁能解释一下 之间的区别通配符 , 前缀 , 查询字符串和 正则表达式 ? 哪个可以搜索最好性
由于我对任何主流浏览器(Firefox、Chrome、Opera)都不太满意,而且我尝试过的不太受欢迎的浏览器(近十几种)都没有,所以我决定 DIY 并制作一个网页我想要最好的浏览器。 主要目标是让它
我知道如何使用 Python 解析页面。我的问题是哪种方法是所有解析技术中最快的,其他方法的速度有多快? 我知道的解析技术有Xpath、DOM、BeautifulSoup,还有使用Python的fin
我试图从正在解析的命令行中找出哪个函数最适合将十进制、十六进制或八进制数转换为 int 最好——在不知道输入的情况下事先。 目标是使用一个函数来识别不同类型的输入并将其分配给它的整数 (int) 值,
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我们需要在我们的网站上显示酒吧、餐馆和剧院等各种场所的元信息(例如,地址、姓名)。 理想情况下,用户会输入地点名称以及邮政编码,我们会提供最接近的匹配项。 人们将哪些 API 用于类似的地理定位目的?
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the he
我正在创建我的第一个 Web 应用程序,我真的很困惑应该使用什么技术。 我的应用程序需要看起来很严肃(像一个应用程序),它不需要很多色彩缤纷的图形界面。它只需要一个工具栏、一个标签栏、一个拆分面板(最
我是一名优秀的程序员,十分优秀!