gpt4 book ai didi

machine-learning - Word2Vec可以用于信息提取吗?

转载 作者:行者123 更新时间:2023-11-30 08:32:14 26 4
gpt4 key购买 nike

我正在使用 Gensim 来训练 Word2Vec。我知道单词相似度取决于单词是否可以相互替换并且在句子中有意义。但是单词相似度可以用来提取实体之间的关系吗?

示例:我有一堆采访文件,在每次采访中,受访者总是说出他们经理的名字。如果我想从这些采访记录中提取经理的名字,我可以获取文档中所有人名的列表(使用 nlp),并且使用 Word2Vec 与“经理”一词最相似的名字是最有可能是经理。

这个思考过程对 Word2Vec 有意义吗?如果没有,这个问题的机器学习解决方案是否是将我的词嵌入输入到序列到序列模型中?

最佳答案

是的,词向量相似性和相对排列可以表明关系。

在最初的 Word2Vec 论文中,这是通过使用词向量来解决词类比来证明的。最著名的例子涉及“‘男人’对‘国王’就像‘女人’对‘国王’的类比”。

从“king”的词向量开始,减去“man”的向量,再加上“woman”的向量,你就得到了坐标系中的一个新点。然后,如果您寻找接近该新点的其他单词,通常最接近的单词将是 queen。本质上,方向和距离有助于找到一个以特定方式相关的词——性别颠倒的等价词。

而且,在基于新闻的大型语料库中,像“奥巴马”或“布什”这样的著名名字最终会得到更接近他们众所周知的职位头衔(如“总统”)的向量。 (在此类语料库中,有很多上下文中的单词会立即一起出现 - “奥巴马总统今天签署了……” - 或者只是以类似的角色 - “总统任命了……”或“奥巴马任命了……”等)

但是,我怀疑这不太可能适用于您的“经理”面试记录示例。实现有意义的单词到单词的排列取决于共享使用上下文中单词的大量不同示例。强大的向量需要数百万到数十亿单词的大型语料库。因此,单个经理的成绩单可能不足以获得一个好的模型——您需要多个经理的成绩单。

在这样的语料库中,每个经理的名字可能不会仅仅与类似经理的上下文紧密相关。当提到其他角色时,相同的名字将被重复,并且记录可能不会特别以有用的第三人称方式提及管理行动,从而使特定的名称向量处于良好的位置。 (也就是说,不会有干净的说明性陈述,例如“John_Smith 召开了员工 session ”或“John_Smith 取消了该项目,以及其他诸如“...经理 John_Smith...”或“经理取消了该项目”。)

关于machine-learning - Word2Vec可以用于信息提取吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48455703/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com