gpt4 book ai didi

python - 聚类内部聚类是数据表的嵌套聚类,是多类聚类

转载 作者:行者123 更新时间:2023-11-30 09:15:40 25 4
gpt4 key购买 nike

如何对数据集中具有相似名称(例如 McDonald 和 Mc DOnald's)的字符串应用聚类,如果字符串相同(例如 sam 和其他也是 sam),那么如何再次根据值(value)或价格进行聚类例如-考虑一个包含 10 个元素的数据表

name           price
ram 200
shyam 150
ram12 59
gita 45
ram 2 45
g11ita 23
john2 32
john 7
jonh21 8
jonh 38
ram22 3

那么分组应该是

ram                    200

ram12 59
ram 2 45

ram22 3

john2 32
jonh 37

john 7
john21 8

gita 45
g11ita 23

我已经使用 fuzzywuzzy 和 Levenheneitein 距离进行字符串聚类,但它只能对字符串进行聚类,而不能对价格进行聚类如何对第一个字符串进行聚类,如果相同则对价格进行聚类

最佳答案

您需要仔细平衡文本相似性和数字相似性的阈值。不会有一个简单的解决方案,除非您拥有大量数据,否则手动方法可能是最好的。

短字符串的文本相似性非常不可靠。

例如:“dog”和“fog”仅相差一个字母,但不太可能出现拼写错误。它们的编辑距离为 1,最小的非零值!因此,如果您依赖 Levenshtein,您将遇到大量误报 - 如果您手动验证它们还可以,但自动处理则不行。

因此,您至少需要使用了解以下内容的信息:(a) 不太可能拼写错误的现有单词,(b) 常见拼写错误,以及 (c) 语音相似性来估计单词拼写错误的可能性,( d) 键盘相似度,单词输入错误的可能性有多大...

关于python - 聚类内部聚类是数据表的嵌套聚类,是多类聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56607559/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com