gpt4 book ai didi

machine-learning - LDA 文本分类的良好训练数据?

转载 作者:行者123 更新时间:2023-11-30 08:32:02 24 4
gpt4 key购买 nike

我根据 LDA 将内容分类为通用主题,例如音乐、技术、艺术、科学

这是我正在使用的过程,

9个主题 -> 音乐技术艺术科学 >.

9 个文档 -> Music.txtTechnology.txtArts.txtScience.txt等等等等

我在每个文档(.txt 文件)中填充了大约 10,000 行我认为是“纯”分类内容的内容

然后我对测试文档进行分类,看看分类器的训练效果如何

我的问题是,

a.) 这是一种有效的文本分类方法(使用上述步骤)吗?

b.) 我应该在哪里寻找“纯”主题内容来填充每个文件?不太大的来源(文本数据> 1GB)

分类仅针对上述“通用”主题

最佳答案

a) 您描述的方法听起来不错,但一切都取决于您正在使用的标记 LDA 的实现。我所知道的最好的实现之一是 Stanford Topic Modeling Toolbox 。它不再被积极开发,但当我使用它时效果很好。

b) 您可以在 DBPedia 上查找主题内容,它具有主题/实体的结构化本体,以及有关这些主题/实体的维基百科文章的链接。

关于machine-learning - LDA 文本分类的良好训练数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29575700/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com