machine-learning - 有什么办法可以理解word2vec的输出特征吗？-6ren

machine-learning - 有什么办法可以理解word2vec的输出特征吗？

转载作者：行者123 更新时间：2023-11-30 09:14:47

我想了解 word2vec 输出中每个维度的含义。

例如，如果我用一个热编码变量制作一棵决策树，我可以准确地判断分类变量中的哪个类别负责分割。然而，如果我使用嵌入，我无法解释这些分割的原因。

我知道嵌入(国王)的著名例子 - 嵌入(男人)+嵌入(女人)=嵌入(女王)。从这个例子中，我们可以说已经理解了“版税”的特性。

我猜想一种方法是根据余弦相似性对相似的数据点进行聚类，以获得有关输出特征的一些背景信息。

例如，如果我得到一个数据点的最近 3 个邻居是“公里”、“英寸”和“英里”。我可以推断“长度”可能是决策树中 split 的原因。不过我想知道是否还有其他方法。

最佳答案

首先，词嵌入大多是以无监督的方式生成的。因此，当它被播种时，实际上可以发现不同的属性。事实上，某些 Word2Vec 运行可能永远不会获取版税或长度属性。

此外，这些属性的顺序有些没有意义。只要在同一个地方找到相同的属性就足够了。

基于此，从根本上需要研究词嵌入，以将其项目与我们标记事物的内容相关联。令人着迷的问题是，是否有一些项目与我们的概念不相关，但对词嵌入仍然有用。

您可能感兴趣的是语义本体以及它们如何关联不同的语义概念。

关于machine-learning - 有什么办法可以理解word2vec的输出特征吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58795364/

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章