gpt4 book ai didi

python - 文本聚类/NLP

转载 作者:行者123 更新时间:2023-11-30 09:32:19 25 4
gpt4 key购买 nike

假设数据集中有一列代表大学。我们需要对这些值进行分类,即分类后的组数应尽可能等于真实的大学数量。问题是同一所大学可能有不同的命名。举个例子:斯坦福大学=斯坦福大学=斯坦福大学。 Python 3 中有特定的 NLP 方法/函数/解决方案吗?

让我们考虑两种情况:数据可能已标记,也可能未标记。

提前致谢。

最佳答案

一种非常简单的无监督方法是使用基于 k 均值的方法。这样做的优点是您可以准确地知道您期望有多少个集群 (k),因为您提前知道大学的数量。

然后您可以使用诸如 scikit-learn 之类的包创建您的特征向量(很可能是使用Countvectorizer和选项analyzer=char的n元字符),您可以使用聚类将类似的大学分组在一起。

无法保证这些组会完美匹配,但我认为只要不同的拼写有些相似,它就应该工作得很好。

关于python - 文本聚类/NLP,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53314286/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com