machine-learning - "similar enough"对象的指标-6ren

machine-learning - "similar enough"对象的指标

转载作者：行者123 更新时间：2023-11-30 08:43:59

26

4

假设我们有两个信号空间 S1 和 S2，每个信号空间包含数百个甚至数千个信号。 S1 是给定系统(飞机、汽车等)发送或接收的所有信号，S2 是系统内部子系统的软件模块发送或接收的所有信号。每个信号都有一组特定的数十个属性，例如信号名称、周期时间、电压等。

现在我想检查 S1 中的每个信号在 S2 中是否至少有一个表示，这意味着 S1 中信号的所有属性都等于 S2 中信号的所有属性。一开始这听起来很简单，因为人们可以迭代信号及其属性并检查某处是否存在等效信号。但事实证明，两侧(S1 和 S2 信号)可能存在错误的规范，因此无法识别属于在一起的信号对。

示例:

K1 = {名称:= CAN_1234_UHV;电压:=0.8毫伏；周期=100ms}

D1 = {名称:= CAN_1234_UH;电压:=0.8mV；周期=100 毫秒}

人类可以很容易地看出这两个信号可能非常适合在一起，尽管存在一些拼写错误。

所以我所做的是设计一种算法，计算每个属性的字符串的距离度量，将相似性映射到该特定属性等于其他信号的相同属性的某种概率，计算平均值并分类如果此概率达到某个阈值，则信号相等。

这产生了可怕的结果，因为两个信号可以被归类为相等，因为某些属性具有在信号空间中非常常见的值。因此，下一步是对这些属性进行加权(信号名称比周期时间更适合识别信号)。

这整个过程对我来说似乎相当随意，因为我真的不知道会产生良好结果的概率和权重。所以我有一种感觉，这个问题可以通过机器学习算法来解决，因为它可以从训练数据中得出概率和权重。

因此，总而言之，使用机器学习算法将信号识别为“足够相似”以便将它们归类为相等是否可行。我知道这个问题不能笼统地回答，我更感兴趣的是“直觉”和“插入正确的方向”。

提前致谢

最佳答案

解决方案 1 -您可以使用 Apache Solr。

您可以在 Apache Solr 中保存(索引)所有信号，其中信号的每个属性都将存储为 Solr 的字段。

Example:
K1 = {Name:= CAN_1234_UHV; Voltage:= 0.8 mV; Cycle=100ms}
D1 = {Name:= CAN_1234_UH; Voltage:= 0.8mV; Cycle=100 ms}

K1 and D1 is a document in Solr. Name, Voltage, Cycle will be Solr's Field.

然后您可以使用 Solr 的 MoreLikeThis 功能来识别相似的信号。

<小时/>

This yielded terrible results because two signals could be classified as equal because certain properties had values that were very common in the signal space. So the next step would be to weight these properties (signalname is better suited than cycle time to identify the signal).

为此请检查下面的mlt.qf。

Solr 为 MoreLikeThis 提供了许多通用参数，可以根据您的需要进行调整。

mlt.fl 指定用于相似性的字段。如果可能的话，这些应该已经存储了 termVector。
mlt.mintf 指定最短期限频率，低于该频率的项将在源文档。
mlt.mindf 指定最小文档频率，未出现在 at 中的单词将被忽略的频率至少这么多文件。
mlt.maxdf 指定最大文档频率，出现的单词被忽略的频率不止这么多文档。
mlt.minwl 设置最小字数长度低于该长度的单词将被忽略。
mlt.maxwl 设置最大值单词长度超过该长度的单词将被忽略。
mlt.maxqt 设置将包含在任何生成的查询项中的最大数量查询。
mlt.maxntp 设置每个中要解析的最大标记数未使用 TermVector 支持存储的示例文档字段。
mlt.boost 指定是否将通过感兴趣的内容来增强查询术语相关性。它可以是“真”或“假”。
mlt.qf 查询字段及其增强使用与 DisMaxRequestHandler 使用的格式相同的格式。这些字段也必须在 mlt.fl 中指定。

解决方案 2 -编写您自己的解决方案。

您可以使用这些算法为此问题编写自定义解决方案。

Levenshtein Distance - 非正式地，两个单词之间的编辑距离是将一个单词更改为另一个单词所需的单字符编辑(即插入、删除或替换)的最小次数。
Hamming Distance - 在信息论中，两个等长字符串之间的汉明距离是对应符号不同的位置数。
Smith–Waterman-algorithm - Smith–Waterman算法执行局部序列比对；也就是说，用于确定两个字符串或核苷酸或蛋白质序列之间的相似区域。 Smith–Waterman 算法不是查看整个序列，而是比较所有可能长度的片段并优化相似性度量。
Sørensen–Dice Coefficient - 是用于比较两个样本相似度的统计量

关于machine-learning - "similar enough"对象的指标，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39566172/

26

4

0

文章推荐： java - XMLEncoder 不正确写入文件

文章推荐： javascript - 处理 JavaScript 对象中缺失属性的最佳实践？

文章推荐： java - 用 Java 开发的独立程序

文章推荐： javascript - 在所有浏览器中显示桌面通知

java - 对象 a = 对象 b；对象 a 会发生什么？
我的一位教授给了我们一些考试练习题，其中一个问题类似于下面(伪代码): a.setColor(blue); b.setColor(red); a = b; b.setColor(purple); b
JavaScript 测试(对象 && 对象 !== "null"&& 对象 !== "undefined")
我似乎经常使用这个测试 if( object && object !== "null" && object !== "undefined" ){ doSomething(); } 在对象上，我
C#对象/对象
C# Object/object 是值类型还是引用类型？我检查过它们可以保留引用，但是这个引用不能用于更改对象。 using System; class MyClass { public s
javascript - 通过ajax发送json - 对象 - 对象
我在通过 AJAX 发送 json 时遇到问题。 var data = [{"name": "Will", "surname": "Smith", "age": "40"},{"name": "Wil
javascript - 如何获取值[对象][对象]
当我尝试访问我的 View 中的对象 {{result}} 时(我从 Express js 服务器发送该对象)，它只显示 [object][object]有谁知道如何获取 JSON 格式的值吗？这是
java - 对象...对象[] 和格式
我有不同类型的数据(可能是字符串、整数......)。这是一个简单的例子: public static void main(String[] args) { before("one"); }
javascript - 如何修复[对象，对象]
嗨，我是 json 和 javascript 的新手。我在这个网站找到了使用json数据作为表格的方法。我很好奇为什么当我尝试使用 json 数据作为表时，我得到 [Object,Object]
JavaScript [对象][对象] 调试
已关闭。此问题需要 debugging details 。目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and the
java - 对象==空或空==对象？
我听别人说 null == object 比 object == null check 例如: void m1(Object obj ) { if(null == obj) // Is thi
VBS教程：对象-Match 对象
Match 对象提供了对正则表达式匹配的只读属性的访问。说明 Match 对象只能通过 RegExp 对象的 Execute 方法来创建，该方法实际上返回了 Match 对象的集合。所有的
VBS教程：对象-Class 对象
Class 对象使用 Class 语句创建的对象。提供了对类的各种事件的访问。说明不允许显式地将一个变量声明为 Class 类型。在 VBScript 的上下文中，“类对象”一词指的是用
VBS教程：对象-Folder 对象
Folder 对象提供对文件夹所有属性的访问。说明以下代码举例说明如何获得 Folder 对象并查看它的属性： Function ShowDateCreated(f
VBS教程：对象-File 对象
File 对象提供对文件的所有属性的访问。说明以下代码举例说明如何获得一个 File 对象并查看它的属性： Function ShowDateCreated(fil
VBS教程：对象-Drive 对象
Drive 对象提供对磁盘驱动器或网络共享的属性的访问。说明以下代码举例说明如何使用 Drive 对象访问驱动器的属性： Function ShowFreeSpac
VBS教程：对象-FileSystemObject 对象
FileSystemObject 对象提供对计算机文件系统的访问。说明以下代码举例说明如何使用 FileSystemObject 对象返回一个 TextStream 对象，此对象可以被读
对象
我是 javascript OOP 的新手，我认为这是一个相对基本的问题，但我无法通过搜索网络找到任何帮助。我是否遗漏了什么，或者我只是以错误的方式解决了这个问题？这是我的示例代码: functio
对象
我可以很容易地创造出很多不同的对象。例如像这样: var myObject = { myFunction: function () { return ""; } };
对象
function Person(fname, lname) { this.fname = fname, this.lname = lname, this.getName = function()
javascript - JSON 返回(对象，对象)
任何人都可以向我解释为什么下面的代码给出 (object, Object) 吗？ (console.log(dope) 给出了它应该的内容，但在 JSON.stringify 和 JSON.parse
javascript - 返回 [对象，对象] 的工具提示
我正在尝试完成散点图 exercise来自免费代码营。然而，我现在只自己学习了 d3 几个小时，在遵循 lynda.com 的教程后，我一直在尝试确定如何在工具提示中显示特定数据。 This code

首页

博学

6Ren·AI

商城