gpt4 book ai didi

machine-learning - 有什么办法可以理解word2vec的输出特征吗?

转载 作者:行者123 更新时间:2023-11-30 09:14:47 24 4
gpt4 key购买 nike

我想了解 word2vec 输出中每个维度的含义。

例如,如果我用一个热编码变量制作一棵决策树,我可以准确地判断分类变量中的哪个类别负责分割。然而,如果我使用嵌入,我无法解释这些分割的原因。

我知道嵌入(国王)的著名例子 - 嵌入(男人)+嵌入(女人)=嵌入(女王)。从这个例子中,我们可以说已经理解了“版税”的特性。

我猜想一种方法是根据余弦相似性对相似的数据点进行聚类,以获得有关输出特征的一些背景信息。

例如,如果我得到一个数据点的最近 3 个邻居是“公里”、“英寸”和“英里”。我可以推断“长度”可能是决策树中 split 的原因。不过我想知道是否还有其他方法。

最佳答案

首先,词嵌入大多是以无监督的方式生成的。因此,当它被播种时,实际上可以发现不同的属性。事实上,某些 Word2Vec 运行可能永远不会获取版税或长度属性。

此外,这些属性的顺序有些没有意义。只要在同一个地方找到相同的属性就足够了。

基于此,从根本上需要研究词嵌入,以将其项目与我们标记事物的内容相关联。令人着迷的问题是,是否有一些项目与我们的概念不相关,但对词嵌入仍然有用。

您可能感兴趣的是语义本体以及它们如何关联不同的语义概念。

关于machine-learning - 有什么办法可以理解word2vec的输出特征吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58795364/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com