gpt4 book ai didi

python 数据挖掘

转载 作者:太空宇宙 更新时间:2023-11-03 13:05:09 26 4
gpt4 key购买 nike

我不太关心数据挖掘,但我需要一些关于聚类的想法。让我先描述一下我的问题。

我有大约 100 个包含用户评论的数据表。例如,我试图找到描述质量的词。一个人可以说这是惊人的质量,另一个人可以说质量很好,现在我必须对那些描述那些相似句子的文档进行聚类,并获得这些句子的频率。这里应用什么概念?

我想我必须指定一些停用词和同义词。我对这个概念不太熟悉。

有人可以给我一些详细的链接或解释吗?以及要使用什么工具?我基本上是一名 python 程序员,所以任何 python 模块都会受到赞赏。

谢谢

最佳答案

http://www.nltk.org/用于语言处理。使用此库,您可以将文本拆分为句子、计算术语频率、查找同义词等。

Carrot^2是一个很好的集群文本片段的开源项目,不幸的是它是用 Java 编写的。其聚类背后的想法是术语和短语(二元组和三元组)的频率。预处理后,每个文档(片段、评论)都表示为术语/短语频率的向量。为了计算簇,他们使用一些线性代数并在该术语空间中找到主要成分。然后使用这些组件为它们形成集群和标签。

在您的情况下,值得将评论视为文档,将它们聚类并为聚类获取标签。标签可能会以某种方式评估评论。

在您的特定情况下,值得消除感兴趣的词,从而显着降低维数,这在此类任务中非常关键

另一个有用的项目 - montylingua

关于 python 数据挖掘,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5535623/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com