作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
如何对数据集中具有相似名称(例如 McDonald 和 Mc DOnald's)的字符串应用聚类,如果字符串相同(例如 sam 和其他也是 sam),那么如何再次根据值(value)或价格进行聚类例如-考虑一个包含 10 个元素的数据表
name price
ram 200
shyam 150
ram12 59
gita 45
ram 2 45
g11ita 23
john2 32
john 7
jonh21 8
jonh 38
ram22 3
那么分组应该是
ram 200
ram12 59
ram 2 45
ram22 3
john2 32
jonh 37
john 7
john21 8
gita 45
g11ita 23
我已经使用 fuzzywuzzy 和 Levenheneitein 距离进行字符串聚类,但它只能对字符串进行聚类,而不能对价格进行聚类如何对第一个字符串进行聚类,如果相同则对价格进行聚类
最佳答案
您需要仔细平衡文本相似性和数字相似性的阈值。不会有一个简单的解决方案,除非您拥有大量数据,否则手动方法可能是最好的。
短字符串的文本相似性非常不可靠。
例如:“dog”和“fog”仅相差一个字母,但不太可能出现拼写错误。它们的编辑距离为 1,最小的非零值!因此,如果您依赖 Levenshtein,您将遇到大量误报 - 如果您手动验证它们还可以,但自动处理则不行。
因此,您至少需要使用了解以下内容的信息:(a) 不太可能拼写错误的现有单词,(b) 常见拼写错误,以及 (c) 语音相似性来估计单词拼写错误的可能性,( d) 键盘相似度,单词输入错误的可能性有多大...
关于python - 聚类内部聚类是数据表的嵌套聚类,是多类聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56607559/
我是一名优秀的程序员,十分优秀!