作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
假设数据集中有一列代表大学。我们需要对这些值进行分类,即分类后的组数应尽可能等于真实的大学数量。问题是同一所大学可能有不同的命名。举个例子:斯坦福大学=斯坦福大学=斯坦福大学。 Python 3 中有特定的 NLP 方法/函数/解决方案吗?
让我们考虑两种情况:数据可能已标记,也可能未标记。
提前致谢。
最佳答案
一种非常简单的无监督方法是使用基于 k 均值的方法。这样做的优点是您可以准确地知道您期望有多少个集群 (k),因为您提前知道大学的数量。
然后您可以使用诸如 scikit-learn 之类的包创建您的特征向量(很可能是使用Countvectorizer和选项analyzer=char的n元字符),您可以使用聚类将类似的大学分组在一起。
无法保证这些组会完美匹配,但我认为只要不同的拼写有些相似,它就应该工作得很好。
关于python - 文本聚类/NLP,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53314286/
我是一名优秀的程序员,十分优秀!