machine-learning - 如何定义自定义相似性度量-6ren

machine-learning - 如何定义自定义相似性度量

转载作者：行者123 更新时间：2023-11-30 09:12:05

26

4

我需要一些定义自定义相似性度量的帮助。

我有一个数据集，其元素由 4 个属性定义。例如，请考虑以下两项:

Element 1:

A1: "R1", "R3", "R4", "R7"
A2: "H1"
A3  "F1", "F2"
A4  "aaa" "bbb"


Element 2:

A1: "R1", "R2"
A2: "H1"
A3  "F1", "F2"
A4  "aaa" "bbb" "ccc" "ddd" "eee" "fff"

我必须实现相似性度量，该度量应满足以下条件:

1 - 如果A2值相同，则两个元素必须属于同一个簇

2 - 如果两个元素在 A4 上至少有一个共同值，则 who 元素必须属于同一簇。

我需要使用一种加权 Jaccard 度量。定义一个相似性度量，将每个属性的杰卡德距离相加，然后如果 A2 和 A4 满足条件 1 和 2，则添加某种高权重，这在数学上是否正确？

如果是这样，如何将相似度矩阵转换为距离矩阵？

最佳答案

(1) 距离 = 1 - 相似度。这是一个共同的特征。

(2) 对属性距离求和是有效的，尽管您可能希望将其缩小到 [0, 1] 范围。

(3) 根据您的描述，赋予较高的权重是不正确的。如果 A2 或 A4 值显示匹配，只需将距离设置为 0。聚类是一项要求，而不仅仅是强烈的建议。您的距离函数是否还有其他语义，您不想采取这条路线？

仅供引用，拓扑度量距离函数 D 的基础知识是:

D(a, a) = 0
D(a,b) = D(b,a)
D(a,b) + D(b,c) >= D(a,c)

关于machine-learning - 如何定义自定义相似性度量，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32848218/

26

4

0

文章推荐： matlab - 如何在 MATLAB 神经网络中输入新输入？

文章推荐： javascript - 如何在 React 中使用 setState 在内部更新状态？

文章推荐： javascript - React Hooks setState 的意外结果

文章推荐： scala - 如何使用 RowMatrix.columnSimilarities(相似性搜索)

java - Java 中的 Wordnet 相似性:JAWS、JWNL 或 Java WN::相似性？
我需要在基于 Java 的应用程序中使用 Wordnet。我想: 搜索同义词集找到同义词集之间的相似性/相关性我的应用程序使用 RDF 图，我知道 Wordnet 有 SPARQL 端点，但我想最
C# 搜索具有相似性/相似性
假设我们有一个 IEnumerable Collection，其中包含 20 000 人对象项。那么假设我们创建了另一个 Person 对象。我们想列出所有与这个人相似的人。这意味着，例如，如果姓
java - JAWS Wordnet 相似性
我使用 JAWS 作为普通的 wordnet 来查找单词之间的相似性。我安装了 wordnet 2.1 并添加了 jar 文件:edu.mit.jwi_2.1.4.jar 和 edu.sussex.
python - Word2Vec Python 相似性
我用这段代码做了一个词嵌入: with open("text.txt",'r') as longFile: sentences = [] single= []
javascript - 对象/数组比较算法以确定共性/相似性
我正在尝试找出确定各种对象或数组之间的共性或相似性的最佳方法，并且有兴趣获得社区的意见。我目前正在用 javascript 构建一个早期研究原型(prototype)，我需要采用一种巧妙的方式来比较对
c# - C# 上的 Flash 相似性
我在将 Flash 游戏转换为 C# 时遇到问题。在 Flash 中我会使用这种语法: public function doMove() { eaze(this).to(actionTime,
python - 在 PyTorch 中找到一批向量之间的 jaccard 相似性
我有一批形状为 (bs, m, n) 的向量(即维度为 mxn 的 bs 向量)。对于每个批处理，我想计算第一个向量与其余 (m-1) 个向量的 Jaccard 相似度例子: a = [ [
python - 使用 Whoosh Python 搜索库的文档比较/相似性
如何使用 Whoosh 获取文档的相似性度量？我想创建一个“相关”特征，对与文档具有高度相似性的其他先前编入索引的文档进行排名。我是否将文档作为长查询字符串输入？我是否将文档添加到索引并以某种方式
python - 比较多个 Python 列表并合并 Levenshtein 相似性
我编写了一个 Python 函数，它接受两个列表，使用 Levenshtein 比较它们并将足够相似的单词合并到一个名为“merged”的列表中。我如何为超过 6 个列表执行此操作？确保将每个列表与
c++ - 在 C++ 中使用枚举编程 iota 相似性
请原谅我对 Go 的了解非常有限。我有这样的定义 type ErrorVal int const ( LEV_ERROR ErrorVal = iota LEV_WARNING
python - 如何比较两个大文本之间的度量 - Python 中的余弦、Jaccard 相似性、Sim_MinEdit (Sim_String) 和 Sim_Simple
我正在从事文本分析项目，一次比较两个不同的报告并将结果保存到 pandas 数据框中。我能够得到 cosine 和 jacard 的相似性，但需要确保我得到正确的度量。作为参数，我使用位于给定文件夹

首页

博学

6Ren·AI

商城

machine-learning - 如何定义自定义相似性度量