- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我认为在 LDA 模型中,这些是使用现有模型推断新文档的两种方法。这两种方法有什么区别?
最佳答案
我做了一些测试,我的 ldamodel 有 8 个主题,这里是我的结果:2 个预测主题的文档:
list_unseenTw=[['hope', 'miley', 'blow', 'peopl', 'mind', 'tonight', 'gain', 'million', 'fan'],['@mileycyrustour', "we'r", 'think', "it'", 'pretti', 'cool', 'miley', 'saturday', 'night', 'live', 'tonight', '#prettycool']]
使用 lda[doc_bow] 进行预测(它已经给出了匹配主题的百分比)
doc_bow = [dictionary.doc2bow(text) for text in list_unseenTw]预测 = ldamodel[doc_bow]
预测[0]:[(0, 0.02509002728802024), (1, 0.0250114373070437), (2, 0.025040162139306051), (3, 0.82462688228515812), (4, 0.025150924341817767), (5, 0.025000027675139792), (6, 0.025000024127660267), (7, 0.025080514835853926)]
预测[1]:[(0, 0.031250011319462589), (1, 0.031250013721820222), (2, 0.031250019639505598), (3, 0.031250015093378707), (4, 0.031250019670816337), (5, 0.031250024860739675), (6, 0.78124988084026048), (7, 0.031250014854016454)]
使用 ldamodel.inference 进行预测(结果以权重而非百分比给出)
pred= ldamodel.inference(doc_bow)
打印(预测)
(数组([[ 0.12545023, 0.1250572 , 0.12520085, 4.12309694, 0.12579184, 0.12500014, 0.12500012, 0.12540268], [ 0.12500005, 0.12500005, 0.12500008, 0.12500006, 0.12500008, 0.1250001 , 3.12499952, 0.12500006]]), 无)
如您所见,第一个预测 (doc1) 的结果与您所做的相同(主题 3):
total=0
for i in pred[0][0]:
total+=i
4.12309694/total = 0.82462%
关于python - lda[doc_bow] 和 lda.inference(corpus) 之间的区别是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27145452/
已关闭。这个问题是 off-topic 。目前不接受答案。 想要改进这个问题吗? Update the question所以它是on-topic用于堆栈溢出。 已关闭12 年前。 Improve th
我已经安装了NLTK。这是安装日志的图像。 当我使用import nltk时,我收到错误: "No module named NLTK.corpus" 这是屏幕截图。 可能是什么原因? 最佳答案 我想
我的代码引用了 nltk.corpus.words.words()。 哪个NLTK data设置为我需要下载才能访问它? 现在我告诉下载器通过执行 python -m nltk.downloader
我真的是编程新手,这就是为什么我的问题可能很无聊或愚蠢,对此感到抱歉!我正在尝试在 Gephi 中构建共同作者图(graphml 格式)。一切都很好,但我不明白如何在同一文件中导入日期。我的代码如下:
nltk.corpus.wordnet 中哪个相似度函数适用于查找两个词的相似度? path_similarity()? lch_similarity()? wup_similari
本文整理了Java中se.lth.cs.srl.corpus.Yield类的一些代码示例,展示了Yield类的具体用法。这些代码示例主要来源于Github/Stackoverflow/Maven等平台
我已经开始研究 Moses,并尝试制作我认为会是相当标准的基线系统。 the steps described on the website我基本都关注了,但我没有使用 news-commentary,
我找到了一个在大型维基百科数据集上使用 word2vec 的教程 http://danielfrg.github.io/blog/2013/09/21/word2vec-yhat/ 我想构建一个类似于
背景: 给定一个语料库,我想使用 word2wec (Gensim) 的实现来训练它。 想要了解 2 个标记之间的最终相似性是否取决于语料库中 A 和 B 的频率(保留所有上下文),还是不可知。 示例
您好,我正在使用 NLTK、nps_chat 语料库。 我知道我可以像下面这样访问 nps 聊天语料库 posts = nltk.corpus.nps_chat.xml_posts() 我准备了Lab
我一直在阅读不同的问题/答案(尤其是 here 和 here),但没有设法将任何问题/答案应用于我的情况。 我有一个 11,390 行的矩阵,其中包含属性 id、作者、文本,例如: library(t
我想知道 R 的文本挖掘包是否有可能具有以下功能: myCorpus ),control=...) # add docs myCorpus.addDocs(DirSource(),control=..
我正在使用 tm 包通过以下代码清理一些数据: mycorpus corpus")" to a data.frame 如何将语料库转换为数据框? 最佳答案 你的语料库实际上只是一个带有一些额外属性的
有没有一种简单的方法如何不仅可以找到最常用的术语,还可以在 R 的文本语料库中找到表达式(所以不止一个单词,单词组)? 使用 tm 包,我可以找到最常见的术语,如下所示: tdm <- TermDoc
我的问题是在给定两个训练数据 good_reviews.txt 和 bad_reviews.txt 的情况下对文档进行分类。因此,首先我需要加载并标记我的训练数据,其中每一行本身就是一个文档,对应于评
当我使用 Python 2.7(Anaconda、Windows)运行 nltk.corpus.gutenberg.fileids() 时,出现以下错误: File "C:\Anaconda\lib\
我在为斯坦福解析器创建新模型时遇到了一些问题。 我还从斯坦福下载了最新版本: http://nlp.stanford.edu/software/lex-parser.shtml 这里,Genia Co
本文整理了Java中se.lth.cs.srl.corpus.Yield.contains()方法的一些代码示例,展示了Yield.contains()的具体用法。这些代码示例主要来源于Github/
本文整理了Java中se.lth.cs.srl.corpus.Yield.first()方法的一些代码示例,展示了Yield.first()的具体用法。这些代码示例主要来源于Github/Stacko
本文整理了Java中se.lth.cs.srl.corpus.Yield.size()方法的一些代码示例,展示了Yield.size()的具体用法。这些代码示例主要来源于Github/Stackove
我是一名优秀的程序员,十分优秀!