gpt4 book ai didi

string - 机器学习根据字符串相似度将字符串预处理为数字

转载 作者:塔克拉玛干 更新时间:2023-11-03 05:17:35 25 4
gpt4 key购买 nike

我需要将数据预处理为数字,以便能够在数据集中应用 ML 算法,但有一个功能几乎是树结构的字符串,我不知道如何转换。下面是一个例子:

Feature -> Value I would like to transform to (example):

X Y Z foo -> 0.5
X Y Z bar -> 0.501

A B C foo -> 4.1
W B C foo -> 5

本质上,字符串将转换为一个唯一的实数,如果字符串几乎相同,则该数字将非常接近其他数字,从而为字符串中最先出现的第一个单词赋予更大的权重。

我的问题是,是否有现成的算法来解决这个问题?

最佳答案

首先,我不知道有什么算法可以解决这个问题。但我有一个想法(我知道这不是“答案”,但我缺乏将其添加为评论的声誉)。

通过从末尾开始重复与其位置成比例的每个字符来转换每个字符串。例如,“Foo”将变成“FFFooo”和“abcd”“aaaabbbccd”。然后使用 edit-distance在每一对上构建一个距离矩阵 M。

现在是一个优化问题。从随机解(每个词的随机实数)开始,然后计算解的距离矩阵 M' 并最小化 M 和 M' 之间的某些度量(平方误差)。

关于string - 机器学习根据字符串相似度将字符串预处理为数字,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42201907/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com