gpt4 book ai didi

algorithm - 了解 Spark CosineSimillarity 输出

转载 作者:塔克拉玛干 更新时间:2023-11-03 03:23:42 25 4
gpt4 key购买 nike

我正在使用 spark 1.6 余弦相似度 (DIMSUM) 算法。

引用:https://github.com/eBay/Spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/CosineSimilarity.scala

这是我正在做的。

输入:数据框中带有 id 的 50k 文档文本。

处理:

  • 标记文本
  • 使用 word2Vec 生成向量
  • 生成行矩阵
  • 使用带阈值的 columnSimilarities 方法 (DIMSUM)

输出:

  • 得到一个坐标矩阵
  • 在打印出这个坐标矩阵的条目时,我得到了输出格式示例:MatrixEntry(133,185,0.04106425850610451)

我不明白数字 133 和 185 是什么。我猜这些是文档 ID/序列号,但我不确定。有人可以帮忙吗?

如果这个问题非常微不足道,我们深表歉意。

最佳答案

MatrixEntry(i, j, value) 表示第 i 列和第 j 列之间的相似度所以

MatrixEntry(133,185,0.04106425850610451)

是第 133 列和第 185 列之间的相似性。这些值对应于术语而不是文档。

关于algorithm - 了解 Spark CosineSimillarity 输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41965488/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com