machine-learning - Word2Vec 和 Glove 向量适合实体识别吗？-6ren

machine-learning - Word2Vec 和 Glove 向量适合实体识别吗？

转载作者：行者123 更新时间：2023-11-30 08:38:03

33

4

我正在研究命名实体识别。我评估了 MITIE、Stanford NER、NLTK NER 等库，它们都是基于传统 nlp 技术构建的。我还研究了深度学习模型，例如 word2vec 和 Glove 向量，用于表示向量空间中的单词，它们很有趣，因为它们提供了有关单词上下文的信息，但特别是对于 NER 任务，我认为它不太适合。由于所有这些向量模型都会创建词汇和相应的向量表示。如果任何单词不在词汇表中，则不会被识别。假设命名实体很可能不存在，因为它们不受语言的约束。它可以是任何东西。因此，如果任何深度学习技术在这种情况下必须有用，那就是那些更依赖于使用标准英语词汇的句子结构的技术，即忽略命名字段。有没有这样的模型或方法？ CNN 或 RNN 可能是答案吗？

最佳答案

我认为您指的是某种语言的文本，但该文本中的命名实体可能包含不同的名称(例如来自其他语言的名称)？

我首先想到的是一些半监督学习技术，模型会定期更新以反射(reflect)新词汇。

例如，您可能希望使用 word2vec 模型来训练传入数据，并将可能的 NE 的词向量与现有的 NE 进行比较。它们的余弦距离应该很近。

关于machine-learning - Word2Vec 和 Glove 向量适合实体识别吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32202424/

33

4

0

文章推荐： machine-learning - 分割训练和测试数据

文章推荐： javascript - Javascript for 循环的确切执行顺序是什么？

文章推荐： javascript - 根据定义的 div 设置多个 div 高度

neural-network - 预训练的 GloVe 矢量文件(例如 glove.6B.50d.txt)中的 "unk"是什么？
我在下载的手套矢量文件 glove.6B.50d.txt 中找到“unk”标记 from https://nlp.stanford.edu/projects/glove/ .它的值如下: unk -0
neural-network - 预训练的 GloVe 矢量文件(例如 glove.6B.50d.txt)中的 "unk"是什么？
我在下载的手套矢量文件 glove.6B.50d.txt 中找到了“unk”标记 from https://nlp.stanford.edu/projects/glove/ .其值如下: unk -0
nlp - 如何在我自己的语料库上训练 GloVe 算法
我试着关注 this. 但有些是我浪费了很多时间，结果却没有任何用处。我只想训练一个 GloVe在我自己的语料库上建模(~900Mb corpus.txt 文件)。我下载了上面链接中提供的文件并使
python - 通过寻找单词的线性代数结构来评估 Glove 模型
我已经在我的文本语料库上使用 C 应用程序按照此实现构建了 Glove 模型 https://github.com/stanfordnlp/GloVe/tree/master/src 。我想以这样的方
python - 使用 glove-python 模型获取词嵌入字典
我使用 Maciejkula 的实现 (github repo) 在 python 中训练了一个 Glove 模型。对于下一步，我需要一个词到嵌入字典。但是，我似乎找不到一种简单的方法来从我训练的手套
nlp - 为 GLoVe 词向量文件创建 Spark 模式
可在此处下载的 GLoVe 预训练词向量 ( https://nlp.stanford.edu/projects/glove/ ) 具有以下文件格式: government 0.38797 -1.08
word2vec - 无法加载 glove.6B.300d.txt
我正在尝试使用以下代码加载手套向量 en_model = gensim.models.KeyedVectors.load_word2vec_format(model_path, binary=Fals
matrix - 如何在 text2vec 中对齐两个 GloVe 模型？
假设我已经基于两个不同的语料库训练了两个独立的 GloVe 向量空间模型(使用 R 中的 text2vec)。这样做可能有不同的原因:例如，两个基础语料库可能来自两个不同的时间段，或者两个非常不同的流
word2vec - 无法加载 glove.6B.300d.txt
我正在尝试使用以下代码加载手套向量 en_model = gensim.models.KeyedVectors.load_word2vec_format(model_path, binary=Fals
machine-learning - Word2Vec 和 Glove 向量适合实体识别吗？
我正在研究命名实体识别。我评估了 MITIE、Stanford NER、NLTK NER 等库，它们都是基于传统 nlp 技术构建的。我还研究了深度学习模型，例如 word2vec 和 Glove 向
machine-learning - Glove 和 word2vec 之间的主要区别是什么？
word2vec 和手套有什么区别？这两种方法都是训练词嵌入的吗？如果是，那么我们如何同时使用两者？最佳答案是的，它们都是训练词嵌入的方法。它们都提供相同的核心输出:每个单词一个向量，并且向量以有
python - en_vectors_web_lg 和 Glove 向量之间的差异 (spaCy)
https://spacy.io/models/en#en_vectors_web_lg声明该模型包含 1.1m 键，但是 https://nlp.stanford.edu/projects/glov
python - 如何在 tensorflow LSTM 生成模型中使用预训练的 GloVe 向量
我的目标是问是否可以在 Tensorflow word-rnn LSTM 生成模型中使用预训练的 GloVe 向量，如果可以，是否有关于如何实现这一点的指导？我是从 here 引用的我明白(我认为
python - 如何在 Google colaboratory 上使用 GloVe 词嵌入文件
我已经用wget下载了数据 !wget http://nlp.stanford.edu/data/glove.6B.zip - ‘glove.6B.zip’ saved [862182613/862
python - 如何使用 bert 嵌入而不是 glove/fasttext 等静态嵌入来训练神经网络模型？
我正在寻找一些提示来训练具有动态生成的 bert 嵌入的传统神经网络模型(BERT 上下文化嵌入，当出现在不同的上下文中时，它会为同一个词生成不同的嵌入)。在普通的神经网络模型中，我们会用 glov
python - 在 TensorFlow 中使用预训练的词嵌入(word2vec 或 Glove)
我最近查看了 convolutional text classification 的一个有趣的实现。 .然而，我查看过的所有 TensorFlow 代码都使用随机(未预训练)嵌入向量，如下所示: wi
r - 我如何使用 Glove 词嵌入构建模型并使用 R 中的 text2vec 预测测试数据
我正在使用 GloVe 词嵌入将文本数据的分类模型构建为两个类别(即将每个评论分为 2 个类别)。我有两列，一列包含文本数据(评论)，另一列是二进制目标变量(评论是否可操作)。我能够使用 text2v
python - 斯坦福手套 : Dimension anomaly in glove. twitter.27B.200d
我从 http://nlp.stanford.edu/data/glove.twitter.27B.zip 下载了 Glove-twitter 预训练向量当我在内存中加载向量(使用 glove.tw
python-3.x - 如何为 POS 标签生成 GloVe 嵌入？ Python
对于句子分析任务，我想获取与句子关联的 POS 标签序列并将其提供给我的模型，就好像 POS 标签是单词一样。我使用 GloVe 来表示句子中的每个单词，并使用 SpaCy 来生成 POS 标签。然
windows-10 - 安装 glove-python-> link.exe 时出错，退出状态为 1181
我正在尝试为 python 3.5 x64 安装 glove-python 包，但出现如下所示的错误。 (注意:我在 Windows 10 上安装了 Visual C++ 2015 Build Too

首页

博学

6Ren·AI

商城

machine-learning - Word2Vec 和 Glove 向量适合实体识别吗？