gpt4 book ai didi

r - 如何为 R 中的主题建模(topicmodels、lda、tm)准备数据?

转载 作者:行者123 更新时间:2023-12-01 10:51:18 26 4
gpt4 key购买 nike

<分区>

我有一个语料库(622 个文档),其中包含冗长的 txt 文件(每个文件约 20.000-30.000 个单词),我正试图在 R 中进行探索。我已经使用 tm 包进行了一些基本的文本挖掘,并且想现在深入研究主题建模。然而,作为一个新手,我已经在为一些数据准备的基础知识而苦苦挣扎。此处提供了我当前正在使用的文件示例:http://s000.tinyupload.com/?file_id=46554569218218543610

  1. 我假设将这些冗长的文档输入主题建模工具是毫无意义的。所以我想将它们分成段落(或者可能是 300-500 个单词的集合,因为我的数据中有很多多余的段落中断和 OCR 错误)。您会在 VCorpus 中执行此操作还是我应该实际划分源文件(例如使用 shell 脚本)?有什么建议或经验吗?

  2. 文本来自经过 OCR 处理的杂志文章,因此如果我将文档拆分开来,我想我应该为这些段落添加一个元数据标签,告诉我它最初来自哪一期(基本上只是原始文件名),对吗?有没有办法轻松做到这一点?

  3. 一般来说,谁能推荐一本关于 R 主题建模的实用入门书?实际上,像三年级学生一样带我动手的教程会很棒。我正在使用“topicmodels”和“lda”的文档,但对于新手来说学习曲线相当陡峭。编辑: 明确一点,我已经阅读了很多关于主题建模的流行介绍(例如 Scott WeingartMALLET tutorials for Historians )。我在想R 中特定于进程的东西。

希望这些问题不是完全多余的。感谢您花时间阅读!

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com