- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在训练一个 Word2Vec
模型,例如:
model = Word2Vec(documents, size=200, window=5, min_count=0, workers=4, iter=5, sg=1)
和Doc2Vec
模型如下:
doc2vec_model = Doc2Vec(size=200, window=5, min_count=0, iter=5, workers=4, dm=1)
doc2vec_model.build_vocab(doc2vec_tagged_documents)
doc2vec_model.train(doc2vec_tagged_documents, total_examples=doc2vec_model.corpus_count, epochs=doc2vec_model.iter)
具有相同的数据和可比较的参数。
在此之后,我将这些模型用于我的分类任务。而且我发现,简单地对文档的 word2vec
嵌入进行平均或求和比使用 doc2vec
向量执行得更好。我还尝试了更多的 doc2vec
迭代(25、80 和 150 - 没有区别)。
关于为什么以及如何改进 doc2vec
结果的任何提示或想法?
更新:这是 doc2vec_tagged_documents
的创建方式:
doc2vec_tagged_documents = list()
counter = 0
for document in documents:
doc2vec_tagged_documents.append(TaggedDocument(document, [counter]))
counter += 1
关于我的数据的更多事实:
doc2vec
模型,但它几乎同样的结果。最佳答案
对 word2vec 向量求和/平均通常非常好!
更典型的是使用 Doc2Vec 进行 10 或 20 次迭代,而不是从 Word2Vec 继承的默认 5 次迭代。 (不过我看你已经试过了。)
如果您的主要兴趣是文档向量——而不是某些 Doc2Vec 模式中共同训练的词向量——一定要尝试 PV-DBOW 模式 (dm=0
) .它会训练得更快,而且通常表现最好。
如果您的语料库非常小,或者文档非常短,文档向量可能很难变得普遍有意义。 (在某些情况下,减小向量 size
可能会有所帮助。)但特别是如果 window
占平均文档大小的很大一部分,学到了什么通过词向量和文档向量学到的东西将非常非常相似。由于这些词可能会在更多不同的上下文中接受更多次训练,因此它们可能具有更普遍的含义 - 除非您有更大的更长文档集合。
有时有助于改进 Doc2Vec 向量以用于分类目的的其他事项:
在训练结束时重新推断所有文档向量,甚至可能使用不同于 infer_vector()
默认值的参数,例如 infer_vector(tokens, steps=50, alpha=0.025)
– 虽然速度很慢,但这意味着所有文档都从相同的最终模型状态获取向量,而不是批量训练遗留下来的向量
在已知分类标签的情况下,将它们添加为经过训练的文档标签,使用 TaggedDocument
tags
的功能作为标签列表
对于 Word2Vec 或 Doc2Vec 来说,稀有词本质上只是噪音 - 因此 min_count
大于 1(可能明显更高)通常会有所帮助。 (混合的单例词可能对单个 doc-ID 文档向量特别有害,这些文档向量在设计上也是,单例。训练过程是也是,与doc-vector,试图让那些单例词向量预测它们的单文档邻域...实际上,出于您的目的,您只希望 doc-vector 最具描述性。所以这个建议同时尝试 PV-DBOW 和增加 min_count
。)
希望这对您有所帮助。
关于python - Doc2Vec 比 Word2Vec 向量的均值或总和差,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45234310/
我的应用程序上有一个抽屉式菜单,它在桌面上运行良好,但在任何移动设备上我都看到一个丑陋的卡顿。 在 header 中,我有一个 bool 值,在单击汉堡包时将其设置为 true/false,这会将 o
在CLRS书中,自上而下的heapify构建堆的复杂度为O(n)。也可以通过反复调用插入来建立堆,其最坏情况下的复杂度为nlg(n)。 我的问题是:对于后一种方法性能较差的原因,是否有任何见解? 我问
我在所有层和输出上使用 sigmoid,得到的最终错误率为 0.00012,但是当我使用理论上更好的 Relu 时,我得到了最差的结果。谁能解释为什么会发生这种情况?我正在使用一个非常简单的 2 层实
我想计算有多少人(百分比)在我的测试中表现比我差。 这是我想要的结果: student | vak | resultaat | percentielscore ---------+-------
令人惊讶的是,使用 PLINQ 并没有在我创建的一个小测试用例上产生好处;事实上,它比通常的 LINQ 还要糟糕。 测试代码如下: int repeatedCount = 10000000;
我正在开发一个高度基于 map 的应用程序,并且我正在使用 MBXMapKit 框架(基于 MapKit 构建)以便在我的 MapView 中显示自定义 Mapbox map 图 block 而不是默
这个问题在这里已经有了答案: Is it always better to use 'DbContext' instead of 'ObjectContext'? (1 个回答) 关闭 9 年前。
我正在尝试使用 FFmpeg 进行一些复杂的视频转码(例如连接多个文件)。为此,我一直在尝试使用 filter_complex,但我注意到我之前使用普通视频过滤器看到的质量略有下降。 为了仔细检查,我
我是 R 中并行计算的新手,想使用并行包来加速我的计算(这比下面的示例更复杂)。但是,与通常的 lapply 函数相比,使用 mclapply 函数的计算时间更长。 我在我的笔记本电脑上安装了一个全新
我正在尝试使用 BERT 解决文档排名问题。我的任务很简单。我必须对输入文档进行相似度排名。这里唯一的问题是我没有标签——所以它更像是一个定性分析。 我正在尝试一系列文档表示技术——主要是 word2
如何计算两点的差?例如:(5,7) - (2,3) = (3,4) using point = boost::geometry::model::point point p1 (2, 3); point
我是 ARKit 的新手,在检查了一些示例代码后,如 https://developer.apple.com/sample-code/wwdc/2017/PlacingObjects.zip我想知道是
社区。 我正在编写一些机器学习代码,将一些数据分类。 我尝试了不同的方法,但是当我使用SVM时,我遇到了这个问题。 我有一组简单的数据(3 个类别,6 个特征),当我使用具有固定参数(C=10、gam
我只是在查看不同问题的答案以了解更多信息。我看到一个answer这表示在 php 中编写 是不好的做法 for($i=0;$i
我正在编写一个界面,我必须在其中启动 4 个 http 请求才能获取一些信息。 我用两种方式实现了接口(interface): 使用顺序 file_get_contents。 使用多 curl 。 我
我想用随机数来愚弄一下,如果 haskell 中的随机生成器是否均匀分布,因此我在几次尝试后写了下面的程序(生成的列表导致堆栈溢出)。 module Main where import System.
我在 Tensorflow 中构建了一个 LSTM 分类器(使用 Python),现在我正在做一系列基准测试来衡量执行性能。基准测试代码加载在训练期间保存的模型并针对大量输入执行它。我有一个 Pyth
不久前,我重构了单元格渲染器组件以实现性能提升(我有一个巨大的表格)。我从功能性无状态组件重构为 PureComponent。例如: import React from 'react'; import
当我改变缓冲区的大小时,我得到了无法从 BufferedReader 解释的奇怪结果。 我曾强烈期望性能会随着缓冲区大小的增加而逐渐增加, yield 递减设置相当快,此后性能或多或少会持平。但看起来
我正在尝试为 1000 个正面+负面标签的 IMDB 评论 (txt_sentoken) 和 Java 的 weka API 构建一个基于朴素贝叶斯的分类器。 由于我不知道 StringToWordV
我是一名优秀的程序员,十分优秀!