gpt4 book ai didi

nlp - Word2Vec - 向向量表示添加约束

转载 作者:行者123 更新时间:2023-12-01 03:26:34 25 4
gpt4 key购买 nike

我正在尝试将预先训练的 Google 新闻 word2vec 模型适应我的特定领域。对于我正在查看的领域,已知某些单词彼此相似,因此在理想的世界中,这些单词的 Word2Vec 表示应该代表它。我知道我可以在特定领域数据的语料库上训练预训练模型来更新向量。

但是,如果我确定某些单词非常相似并且应该放在一起,那么我是否可以将该约束合并到 word2vec 模型中?在数学上,我想在 word2vec 的损失函数中添加一个术语,如果我知道相似的两个在向量空间中的位置彼此不靠近,则该术语会提供惩罚。有没有人对如何实现这一点有建议?这是否需要我解压 word2vec 模型,或者是否有办法将附加项添加到损失函数中?

最佳答案

一种方法是采用预先训练好的谷歌新闻 word2vec 并使用这个“改造”工具:

Faruqui、Manaal、Jesse Dodge、Sujay K. Jauhar、Chris Dyer、Eduard Hovy 和 Noah A. Smith。 “将词向量改造为语义词典。” arXiv 预印本 arXiv:1411.4166 (2014)。 https://arxiv.org/abs/1411.4166

This paper proposes a method for refining vector space representations using relational information from semantic lexicons by encouraging linked words to have similar vector representations, and it makes no assumptions about how the input vectors were constructed.



该代码可在 https://github.com/mfaruqui/retrofitting 获得并且易于使用(我个人将它用于 https://arxiv.org/abs/1607.02802 )。

关于nlp - Word2Vec - 向向量表示添加约束,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41085755/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com