- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我可以像这里那样使用 fasttext 词向量吗: https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md在 tensorflow 脚本中作为嵌入向量而不是 word2vec 或 glove 而不使用库 fasttext
最佳答案
使用预训练词向量时,可以使用gensim库。
供您引用。 https://blog.manash.me/how-to-use-pre-trained-word-vectors-from-facebooks-fasttext-a71e6d55f27
In [1]: from gensim.models import KeyedVectors
In [2]: jp_model = KeyedVectors.load_word2vec_format('wiki.ja.vec')
In [3]: jp_model.most_similar('car')
Out[3]:
[('cab', 0.9970724582672119),
('tle', 0.9969051480293274),
('oyc', 0.99671471118927),
('oyt', 0.996662974357605),
('車', 0.99665766954422),
('s', 0.9966464638710022),
('新車', 0.9966358542442322),
('hice', 0.9966053366661072),
('otg', 0.9965877532958984),
('車両', 0.9965814352035522)]
我创建了一个从 cnn-text-classification-tf 分支出来的新分支.链接在这里。 https://github.com/satojkovic/cnn-text-classification-tf/tree/use_fasttext
在这个分支中,有三个修改使用fasttext。
model = KeyedVectors.load_word2vec_format('wiki.en.vec')
vocab = model.vocab
embeddings = np.array([model.word_vec(k) for k in vocab.keys()])
with open('fasttext_vocab_en.dat', 'wb') as fw:
pickle.dump(vocab, fw, protocol=pickle.HIGHEST_PROTOCOL)
np.save('fasttext_embedding_en.npy', embeddings)
嵌入层
W被零初始化,然后设置一个embedding_placeholder来接收word_vec,最后W被赋值。 (text_cnn.py)
W_ = tf.Variable(
tf.constant(0.0, shape=[vocab_size, embedding_size]),
trainable=False,
name='W')
self.embedding_placeholder = tf.placeholder(
tf.float32, [vocab_size, embedding_size],
name='pre_trained')
W = tf.assign(W_, self.embedding_placeholder)
使用vocab和word_vec
vocab 用于构建 word-id 映射,word_vec 被送入 embedding_placeholder。
with open('fasttext_vocab_en.dat', 'rb') as fr:
vocab = pickle.load(fr)
embedding = np.load('fasttext_embedding_en.npy')
pretrain = vocab_processor.fit(vocab.keys())
x = np.array(list(vocab_processor.transform(x_text)))
feed_dict = {
cnn.input_x: x_batch,
cnn.input_y: y_batch,
cnn.dropout_keep_prob: FLAGS.dropout_keep_prob,
cnn.embedding_placeholder: embedding
}
请尝试一下。
关于python - 使用 fasttext 预训练词向量作为在 tensorflow 脚本中的嵌入,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44829438/
我尝试在 fasttext 中为 Python 中的英文单行创建句子向量,但我得到的只是与 fasttext 中的 CLI 相关的解决方案。 Link for fast test sentence v
我正在使用预训练的 FastText 模型设置 nlp 预处理来查询和保存词向量。我遇到了 FileNotFoundError: [Errno 2] No such file or directory
请原谅我的新手,但 fasttext 在 python 上不适合我。我正在使用运行 python 3.6 的 anaconda。我的代码如下(只是一个例子): import fasttext mode
我无法运行 FastText 量化,如文档中所示。具体来说,如备忘单页面底部所示: https://fasttext.cc/docs/en/cheatsheet.html 当我尝试在我的训练模型“mo
我正在研究一个文本分类问题,也就是说,给定一些文本,我需要为其分配某些给定的标签。 我曾尝试使用 Facebook 的快速文本库,它有两个我感兴趣的实用程序: A) 带有预训练模型的词向量 B) 文本
我正在尝试使用此命令量化 fasttext 中的无监督模型。 model.quantize(input=train_data, qnorm=True, retrain=True, cutoff=200
目前我正在研究堆栈溢出标签预测,其中使用 fasttext 进行文本分类。 我想知道如果标签多类,标签的正确格式是什么。 1.) __label__toxic__label__racist__lab
我想了解创建句子的 fastText 向量的方式。根据这个issue 309 ,句子的向量是通过对单词的向量进行平均得到的。 为了证实这一点,我写了下面的脚本: import numpy as np
我刚刚开始使用 FastText。我正在通过将数据集的 .csv 文件用作输入来对小型数据集进行交叉验证。要处理我使用此参数的数据集: model = fasttext.train_supervis
我有一个经过训练的自定义 fasttext 模型(fasttext 是 Facebook 开发的词嵌入算法)。我设法在一个函数中获得了预期的结果,但现在我想将它重写成一个定制的转换器,这样我就可以将它
在 FastText 中,我有不平衡的标签。处理它的最佳方法是什么? 最佳答案 Fasttext 似乎可以很好地处理不平衡数据。 根据FAQ Note also that this loss is t
我正在训练一个 fastText模型使用 gensim.models.fasttext .但是,我似乎找不到一种方法来计算迭代损失以进行记录。如果我看 gensim.models.word2vec ,
背景 我想执行代码以使用 fastText 对每个文本的语言进行分类。 我做了什么 下载模型lid.176.bin https://fasttext.cc/docs/en/language-ident
我阅读了这篇论文,并在谷歌上搜索了是否有任何学习方法(或更可能的学习过程)的好例子 对于word2vec,假设有语料库句子 I go to school with lunch box that my
我正在使用 FastText ( fastText_multilingual ) 的修改版本,它可以让我对齐两种语言的单词。 我试图理解他们的 fasttext.py,尤其是 Fast Vector
要获取单词的向量,我可以使用: model["word"] 但是如果我想得到一个句子的向量,我需要对所有单词的向量求和或者对所有向量求平均值。 FastText 是否提供了执行此操作的方法? 最佳答案
我在将快速 FastText 向量转换回单词时遇到问题。这是我的 Python 代码: from gensim.models import KeyedVectors en_model = KeyedV
我正在使用 Gensim 加载我的 fasttext .vec 文件,如下所示。 m=load_word2vec_format(filename, binary=False) 但是,如果我需要加载 .
我已经下载了一个.bin FastText 模型,我将它与gensim 一起使用,如下所示: model = FastText.load_fasttext_format("cc.fr.300.bin"
我正在使用 gensim 加载预训练的 fasttext 模型。我从 fasttext website 下载了英文维基百科训练模型。 这是我为加载预训练模型编写的代码: from gensim.mod
我是一名优秀的程序员,十分优秀!