- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我目前正在分析在线评论。我想尝试 GuidedLDA ( https://medium.freecodecamp.org/how-we-changed-unsupervised-lda-to-semi-supervised-guidedlda-e36a95f3a164 ),因为有些主题重叠。我已经成功安装了这个包。但是,我不确定如何使用 excel 文档作为输入来生成文档术语矩阵(在网站代码中称为 X)和 vocab。有人可以帮忙吗?我尝试在各种论坛中进行在线搜索,但没有找到任何有效的方法。
最佳答案
来自文本挖掘包,TDM类摘录
导入报告
导入csv
导入操作系统
'''
导入词干分析器
'''
您可以将以下代码保存为单独的 python 文件,并将其作为常规模块导入您的代码中,例如 create_tdm.py
导入 create_tdm
X = create_tdm.TermDocumentMatrix("你的文本")
'''词汇'''
word2id = dict((v, idx) for idx, v in enumerate("your text"))
'''
确保引导词列表应该在你的文本中,否则你会得到关键错误,只是为了检查将 pandas 导入为 pd
c = pd.DataFrame(list(word2id))
'''
类 TermDocumentMatrix(对象):
"""
Class to efficiently create a term-document matrix.
The only initialization parameter is a tokenizer function, which should
take in a single string representing a document and return a list of
strings representing the tokens in the document. If the tokenizer
parameter is omitted it defaults to using textmining.simple_tokenize
Use the add_doc method to add a document (document is a string). Use the
write_csv method to output the current term-document matrix to a csv
file. You can use the rows method to return the rows of the matrix if
you wish to access the individual elements without writing directly to a
file.
"""
def __init__(self, tokenizer=simple_tokenize):
"""Initialize with tokenizer to split documents into words."""
# Set tokenizer to use for tokenizing new documents
self.tokenize = tokenizer
# The term document matrix is a sparse matrix represented as a
# list of dictionaries. Each dictionary contains the word
# counts for a document.
self.sparse = []
# Keep track of the number of documents containing the word.
self.doc_count = {}
def add_doc(self, document):
"""Add document to the term-document matrix."""
# Split document up into list of strings
words = self.tokenize(document)
# Count word frequencies in this document
word_counts = {}
for word in words:
word_counts[word] = word_counts.get(word, 0) + 1
# Add word counts as new row to sparse matrix
self.sparse.append(word_counts)
# Add to total document count for each word
for word in word_counts:
self.doc_count[word] = self.doc_count.get(word, 0) + 1
def rows(self, cutoff=2):
"""Helper function that returns rows of term-document matrix."""
# Get master list of words that meet or exceed the cutoff frequency
words = [word for word in self.doc_count \
if self.doc_count[word] >= cutoff]
# Return header
yield words
# Loop over rows
for row in self.sparse:
# Get word counts for all words in master list. If a word does
# not appear in this document it gets a count of 0.
data = [row.get(word, 0) for word in words]
yield data
def write_csv(self, filename, cutoff=2):
"""
Write term-document matrix to a CSV file.
filename is the name of the output file (e.g. 'mymatrix.csv').
cutoff is an integer that specifies only words which appear in
'cutoff' or more documents should be written out as columns in
the matrix.
"""
f = csv.writer(open(filename, 'wb'))
for row in self.rows(cutoff=cutoff):
f.writerow(row)
关于python - 如何在用于主题建模的引导式 LDA 中生成术语矩阵?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48594449/
我正在尝试使用以下 keytool 命令为我的应用程序生成 keystore : keytool -genkey -alias tomcat -keystore tomcat.keystore -ke
编辑:在西里尔正确解决问题后,我注意到只需将生成轴的函数放在用于生成标签的函数下面就可以解决问题。 我几乎读完了 O'Reilly 书中关于 D3.js 的教程,并在倒数第二页上制作了散点图,但是当添
虽然使用 GraphiQL 效果很好,但我的老板要求我实现一个用户界面,用户可以在其中通过 UI 元素(例如复选框、映射关系)检查呈现给他们的元素并获取数据,这样做将为该人生成 graphql 输入,
我尝试在 Netbean 6.8 中使用 ws-import 生成 Java 类。我想重新生成 jax-ws,因为在 ebay.api.paypalapi 包中发现了一个错误(我认为该错误是由于 Pa
我有一个 perl 脚本,它获取系统日期并将该日期写入文件名。 系统日期被分配给 TRH1 变量,然后它被设置为一个文件名。 $TRH1 =`date + %Y%m%d%H%M`; print "TR
我是 Haskell 的新手,需要帮助。我正在尝试构建一种必须具有某种唯一性的新数据类型,因此我决定使用 UUID 作为唯一标识符: data MyType = MyType { uuid ::
我制作了一个脚本,它可以根据 Mysql 数据库中的一些表生成 XML。 该脚本在 PHP 中运行。 public function getRawMaterials($apiKey, $format
所以这是我的项目中的一个问题。 In this task, we will use OpenSSL to generate digital signatures. Please prepare a f
我在 SAS LIFEREG 中有一个加速故障时间模型,我想绘制它。因为 SAS 在绘图方面非常糟糕,我想实际重新生成 R 中曲线的数据并将它们绘制在那里。 SAS 提出了一个尺度(在指数分布固定为
我正在为 Django 后端制作一个样板,并且我需要能够使它到达下一个下载它的人显然无法访问我的 secret key 的地方,或者拥有不同的 key 。我一直在研究一些选项,并在这个过程中进行了实验
我正在创建一个生成采购订单的应用程序。我可以根据用户输入的详细信息创建文本文件。我想生成一个看起来比普通文本文件好得多的 Excel。有没有可以在我的应用程序中使用的开源库? 最佳答案 目前还没有任何
我正在尝试使用 ScalaCheck 为 BST 创建一个 Gen,但是当我调用 .sample 方法时,它给了我 java.lang.NullPointerException。我哪里错了? seal
已关闭。此问题需要 debugging details 。目前不接受答案。 编辑问题以包含 desired behavior, a specific problem or error, and the
我尝试编写一些代码,例如(在verilog中): parameter N = 128; if (encoder_in[0] == 1) begin 23 binary_out = 1;
我正忙于在 Grails 项目中进行从 MySQL 到 Postgres 的相当复杂的数据迁移。 我正在使用 GORM 在 PostGres 中生成模式,然后执行 MySQL -> mysqldump
如何使用纯 XSLT 生成 UUID?基本上是寻找一种使用 XSLT 创建独特序列的方法。该序列可以是任意长度。 我正在使用 XSLT 2.0。 最佳答案 这是一个good example 。基本上,
我尝试安装.app文件,但是当我安装并单击“同步”(在iTunes中)时,我开始在设备上开始安装,然后停止,这是一个问题,我不知道在哪里,但我看到了我无法解决的奇怪的事情: 最佳答案 似乎您没有在Xc
自从我生成 JavaDocs 以来已经有一段时间了,我确信这些选项在过去 10 年左右的时间里已经得到了改进。 我能否得到一些有关生成器的建议,该生成器将输出类似于 .Net 文档结构的 JavaDo
我想学习如何生成 PDF,我不想使用任何第三方工具,我想自己用代码创建它。到目前为止,我所看到的唯一示例是我通过在第 3 方 dll 上打开反射器查看的代码,以查看发生了什么。不幸的是,到目前为止我看
我正在从 Epplus 库生成 excel 条形图。 这是我成功生成的。 我的 table 是这样的 Mumbai Delhi Financial D
我是一名优秀的程序员,十分优秀!