python - 聚类内部聚类是数据表的嵌套聚类，是多类聚类-6ren

python - 聚类内部聚类是数据表的嵌套聚类，是多类聚类

转载作者：行者123 更新时间：2023-11-30 09:15:40

如何对数据集中具有相似名称(例如 McDonald 和 Mc DOnald's)的字符串应用聚类，如果字符串相同(例如 sam 和其他也是 sam)，那么如何再次根据值(value)或价格进行聚类例如-考虑一个包含 10 个元素的数据表

name           price
ram               200
shyam             150
ram12              59
gita               45
ram 2                45 
g11ita                23
john2                32
john                 7
jonh21               8
jonh                 38
ram22                3

那么分组应该是

ram                    200

ram12                  59
ram  2                 45

ram22                   3

john2                    32
jonh                     37

john                    7
john21                   8

gita                 45
g11ita               23

我已经使用 fuzzywuzzy 和 Levenheneitein 距离进行字符串聚类，但它只能对字符串进行聚类，而不能对价格进行聚类如何对第一个字符串进行聚类，如果相同则对价格进行聚类

最佳答案

您需要仔细平衡文本相似性和数字相似性的阈值。不会有一个简单的解决方案，除非您拥有大量数据，否则手动方法可能是最好的。

短字符串的文本相似性非常不可靠。

例如:“dog”和“fog”仅相差一个字母，但不太可能出现拼写错误。它们的编辑距离为 1，最小的非零值!因此，如果您依赖 Levenshtein，您将遇到大量误报 - 如果您手动验证它们还可以，但自动处理则不行。

因此，您至少需要使用了解以下内容的信息:(a) 不太可能拼写错误的现有单词，(b) 常见拼写错误，以及 (c) 语音相似性来估计单词拼写错误的可能性，( d) 键盘相似度，单词输入错误的可能性有多大...

关于python - 聚类内部聚类是数据表的嵌套聚类，是多类聚类，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56607559/

文章推荐： python - Keras 中预测数据的逆比例

文章推荐： python - 尝试创建 GAN : InvalidArgumentError: Matrix size-incompatible

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 聚类内部聚类是数据表的嵌套聚类，是多类聚类