作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想了解 word2vec 输出中每个维度的含义。
例如,如果我用一个热编码变量制作一棵决策树,我可以准确地判断分类变量中的哪个类别负责分割。然而,如果我使用嵌入,我无法解释这些分割的原因。
我知道嵌入(国王)的著名例子 - 嵌入(男人)+嵌入(女人)=嵌入(女王)。从这个例子中,我们可以说已经理解了“版税”的特性。
我猜想一种方法是根据余弦相似性对相似的数据点进行聚类,以获得有关输出特征的一些背景信息。
例如,如果我得到一个数据点的最近 3 个邻居是“公里”、“英寸”和“英里”。我可以推断“长度”可能是决策树中 split 的原因。不过我想知道是否还有其他方法。
最佳答案
首先,词嵌入大多是以无监督的方式生成的。因此,当它被播种时,实际上可以发现不同的属性。事实上,某些 Word2Vec 运行可能永远不会获取版税或长度属性。
此外,这些属性的顺序有些没有意义。只要在同一个地方找到相同的属性就足够了。
基于此,从根本上需要研究词嵌入,以将其项目与我们标记事物的内容相关联。令人着迷的问题是,是否有一些项目与我们的概念不相关,但对词嵌入仍然有用。
您可能感兴趣的是语义本体以及它们如何关联不同的语义概念。
关于machine-learning - 有什么办法可以理解word2vec的输出特征吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58795364/
我是一名优秀的程序员,十分优秀!