gpt4 book ai didi

machine-learning - 对非语言概念使用嵌入?

转载 作者:行者123 更新时间:2023-11-30 09:31:25 25 4
gpt4 key购买 nike

使用嵌入代替代表汽车品牌和型号的大型单热编码向量是否有意义?另外,嵌入在概念上代表什么?例如,福特 F-150 与丰田 Tacoma 有多相似?

最佳答案

是的,很有道理。

您可以将嵌入视为不同空间中输入的表示。有时您想要执行降维,因此您的嵌入的维度低于您的输入。其他时候,您只是希望嵌入能够很好地描述您的输入,以便您的模型(例如神经网络)可以轻松地将其与所有其他输入区分开来(这在分类任务中特别有用)。

如您所见,嵌入只是一个向量,它比输入本身更好地描述您的输入。在这种情况下,我们通常用单词特征来指代嵌入。

<小时/>

但是,也许您要问的有点不同。您想知道嵌入是否可以表达汽车之间的相似性。理论上是的。假设您有以下嵌入:

Car A: [0 1]
Car B: [1 0]

嵌入的第一个元素是制造者。 0 代表丰田,1 代表法拉利。第二个要素是模型。 0 代表 F-150,1 代表 458 Italia。如何计算这两辆车之间的相似度?

余弦相似度基本上,您计算嵌入空间中这两个向量之间的角度的余弦。这里的嵌入是二维的,因此我们在一个平面上。而且,两个嵌入是正交的,因此它们之间的角度为 90°,余弦为 0。因此它们的相似度为 0:它们根本不相似!

假设你有:

Car A: [1 0]
Car B: [1 1]

在这种情况下,制造商是相同的。尽管型号不同,但您可能会认为这两辆车比前两辆车更相似。如果计算它们嵌入之间的角度的余弦,您会得到大约 0.707,大于 0。这两辆车确实更相似。

显然,这并不那么容易。这完全取决于您如何设计模型以及如何学习嵌入,即您提供哪些数据作为系统的输入。

关于machine-learning - 对非语言概念使用嵌入?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56116918/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com