scala - Spark ml 余弦相似度 : how to get 1 to n similarity score-6ren

scala - Spark ml 余弦相似度 : how to get 1 to n similarity score

转载作者：行者123 更新时间：2023-12-03 17:39:19

25

4

我读到我可以使用 columnSimilarities RowMatrix 附带的方法找到各种记录的余弦相似度(基于内容)。我的数据看起来像这样:

genre,actor
horror,mohanlal shobhana pranav 
comedy,mammooty suraj dulquer
romance,fahad dileep manju
comedy,prithviraj

现在，我创建了一个 spark-ml 管道来计算上述文本特征(流派、 Actor )的 tf-idf 并使用 VectorAssembler在我的管道中，将这两个功能组合成一列“功能”。之后，我转换我获得的 DataFrame使用这个:

val vectorRdd = finalDF.map(row => row.getAs[Vector]("features"))

将其转换为 RDD[Vector]
然后，我获得了我的 RowMatrix经过

val matrix = new RowMatrix(vectorRdd)

我正在关注 this余弦相似度引用指南，我需要的是 spark-mllib 中的一种方法来查找特定记录与所有其他记录之间的相似度，例如 this sklearn中的方法，如指南所示:

cosine_similarity(tfidf_matrix[0:1], tfidf_matrix)

但是，我无法找到如何做到这一点。我不明白什么 matrix.columnSimilarities()正在比较和返回。有人可以帮我找到我正在寻找的东西吗？

任何帮助表示赞赏!谢谢。

最佳答案

我自己用 2 个小函数计算过。在 2 个数据帧的 crossJoin 上调用 cosineSimilarity。(将第一行和其他行分成 2 行)

def cosineSimilarity(vectorA: SparseVector, 
        vectorB:SparseVector,normASqrt:Double,normBSqrt:Double) :
    (Double,Double) = {
        var dotProduct = 0.0
        for (i <-  vectorA.indices){ 
            dotProduct += vectorA(i) * vectorB(i)
        }
        val div = (normASqrt * normBSqrt)
        if (div == 0 )
            (dotProduct,0)
        else
            (dotProduct,dotProduct / div)
    }

    val normSqrt : (org.apache.spark.ml.linalg.SparseVector => Double) = (vector: org.apache.spark.ml.linalg.SparseVector) => {
        var norm = 0.0
        for (i <- vector.indices ) {
            norm += Math.pow(vector(i), 2)
        }
        Math.sqrt(norm)
    }

关于scala - Spark ml 余弦相似度 : how to get 1 to n similarity score，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40103442/

25

4

0

文章推荐： youtube视频上传后Joomla网站崩溃

文章推荐： cocoa - 在 XPC 服务中使用 FSEventStream 不起作用

python - 如何使用 gensim.similarities.Similarity 找到两个句子之间的相似性
我想编写代码来查找两个句子之间的相似性，然后我最终使用 nltk 和 gensim 编写了这段代码。我使用标记化和 gensim.similarities.Similarity 来完成这项工作。但这不
java AES/CFB/NoPadding :when encrypting similar data the results are similar too
package com.game; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax
python - word2vec_basic 输出 : trying to test word similarity versus human similarity scores
作为熟悉 Tensorflow 的一种方式，我正在尝试验证 word2vec_basic.py(请参阅 tutorial)生成的词嵌入在对照人类相似性分数进行检查时是否有意义。然而，结果出人意料地令人
sql - 什么更好 : to have many similar databases or one database with similar tables or one database with one table?
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 9 年前。 Improve this qu
similarity - 如何标准化编辑距离以获得最大对齐长度而不是字符串长度？
问题:一些 R 包具有 Levenshtein 距离实现，用于计算两个字符串的相似度，例如http://finzi.psych.upenn.edu/R/library/RecordLinkage/ht
similarity - 如何衡量两个系列数据之间的相似性？
我需要找到两个数据数组之间的相似性度量。您可以将相似性度量称为任何您想要的名称，差异、相关性或任何其他名称。例如: 1, 2, 3, 4, 5 < Series 1 2, 3, 4, 5, 6
similarity - PIL 逊相关相似度和调整余弦相似度有什么区别？
虽然它们非常相似，但我确信 Pearson 相关相似度和调整余弦相似度之间存在一些差异，因为所有的论文和网页都将它们分为两种不同的类型。然而，它们都没有提供明确的定义。 Here是其中一页。谁能说
python - 如何在gensim中使用similarities.Similarity？
如何使用similarities.gensim中的Similarity 因为如果我使用 similarities.MatrixSimilarity: index = similarities.Matr
python搜索技术: word similarity
我想得到两个词的相似度百分比，eg) abcd versus zzabcdzz == 50% similarity 不需要非常准确。有什么办法吗？我正在使用 python，但可以随意推荐其他语言。最
734. Sentence Similarity 句子相似性
题目地址：https://leetcode-cn.com/problems/sentence-similarity/ 题目描述 Given two sentences words1, words2
R:搜索字符串 SIMILAR 并返回条件符号
我的 df 有以下条目: A xxx xxx xxx1 xx1x yyyy gggg 我想根据以下条件，根据 A 列的相似性将符号添加到我的 df 的 B 列。我将阈值设置为 = 或 > 75% 相
cosine-similarity - word2vec，求和还是平均词嵌入？
我正在使用word2vec来表示一个小词组(3至4个单词)作为唯一矢量，方法是将每个单词嵌入相加或计算单词嵌入的平均值。通过实验，我总是得到相同的余弦相似度。我怀疑这与在训练后将word2vec生成
similarity - 如何实现 "related articles?"
我如何编写代码来查找与用户当前正在阅读的文章相关(相似)的文章？例如，假设我有文章: Python programming tips Python programming for newbies P
similarity - 使用余弦相似度测量的 n 元句子相似度
我一直在从事一个关于句子相似度的项目。我知道它已经被问过很多次了，但我只是想知道我的问题是否可以通过我正在做的方式使用的方法来完成，或者我应该改变我解决问题的方法。粗略地说，系统应该分割一篇文章的所有
java - 如何在HashMap中只获取一个键为 "similar"的键
我有一个由字符串主机名和列表服务列表定义的对象“ObjectName”。两个 serviceList 可能包含一个或多个相同的字符串。每个字符串都是一个方法的名称。不能有相同名称的方法执行不同的操
java - 在jpql中使用 "similar to"或 "~*"
我在 playframework 2.2 中使用 postgresql 和 jpa。我正在尝试在我的JPQL中使用like with in，方法是使用类似于类似this的东西。线程。 select
similarity - RGBA 颜色空间中的颜色相似度/距离
如何计算 RGBA 颜色空间中两种颜色之间的相似度？(背景颜色当然未知) 我需要通过查找图像中每个像素的最佳调色板条目*，将 RGBA 图像重新映射到 RGBA 颜色调色板。在 RGB 颜色空间中，
Java : Get the most similar string
需要您的另一个提示: 我有一个包含系统路径的列表: C:\System\local\something\anything C:\System\local\anywhere\somewhere C:\S
Android::为 'similar' 屏幕提供资源
我的应用程序布局有点棘手，所以主要问题是支持不同的屏幕。让我们以两部手机 HTC Sensation (4.3"960x540 256dpi) 和 Droid (3.7"854x480 265dpi)
android - 如何在android : similar to email中选择附件
我有一个应用程序。它不是电子邮件应用程序。但它具有类似于电子邮件的功能，用户可以选择在发送消息的同时发送附件。例如，当我在我的 gmail 上单击添加附件时，我可以选择附加任何内容，例如视频、音乐、图

首页

博学

6Ren·AI

商城

scala - Spark ml 余弦相似度 : how to get 1 to n similarity score