gpt4 book ai didi

nlp - 将每行一个文档转换为 Blei 的 lda-c/dtm 格式以进行主题建模?

转载 作者:行者123 更新时间:2023-12-04 13:39:14 24 4
gpt4 key购买 nike

我正在做一些研究的潜在狄利克雷分析,并不断遇到问题。大多数 lda 软件要求文档采用 doclines 格式,这意味着 CSV 或其他分隔文件,其中每一行代表整个文档。然而,Blei's lda-c动态主题模型软件要求数据采用以下格式:[M] [term_1]:[count] [term_2]:[count] ... [term_N]:[count]哪里[M]是文档中唯一术语的数量,与每个术语关联的 [count] 是该术语出现的次数
在文件中。请注意 [term_1]是一个整数索引
学期;它不是一个字符串。

有谁知道可以让我快速转换为这种格式的实用程序?谢谢你。

最佳答案

如果您正在使用 R , lda包包含一个函数 lexicalize这会将原始文本转换为 lda 所需的 lda-c 格式包裹。

example <- c("I am the very model of a modern major general",
"I have a major headache")

corpus <- lexicalize(example, lower=TRUE)

同样, topicmodels包有一个功能 dtm2ldaformat这会将文档术语矩阵转换为 lda 格式。您可以使用 tm 将纯文本文档转换为文档术语矩阵。包裹,也在 R .

因此,通过这些现有功能,将文本放入 R 具有很大的灵活性。用于主题建模。

关于nlp - 将每行一个文档转换为 Blei 的 lda-c/dtm 格式以进行主题建模?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8751071/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com