gpt4 book ai didi

algorithm - 如何将机器学习应用于模糊匹配

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:23:55 24 4
gpt4 key购买 nike

假设我有一个 MDM 系统(主数据管理),其主要应用是检测和防止记录重复。

每次销售代表在系统中输入新客户时,我的 MDM 平台都会对现有记录进行检查,计算词或短语或属性对之间的 Levenshtein 或 Jaccard 或 XYZ 距离,考虑权重和系数并输出相似度得分,等等。

典型的模糊匹配场景。

我想知道应用机器学习技术来优化匹配输出(即以最大准确度查找重复项)是否有意义。
以及它最有意义的地方。

  • 优化属性的权重?
  • 通过预测比赛结果来提高算法的置信度?
  • 学习匹配规则,否则我会配置到算法中?
  • 还有别的吗?

还有 this excellent answer关于这个话题,但我不太明白这个人是否真的使用了 ML。

另外我的理解是,加权模糊匹配已经是一个足够好的解决方案,甚至可能从财务角度来看,因为无论何时部署这样的 MDM 系统,您都必须进行一些分析和预处理,无论是手动编码匹配规则或训练 ML 算法。

所以我不确定添加 ML 是否会代表一个重要的值(value)主张。

如有任何想法,我们将不胜感激。

最佳答案

使用机器学习的主要优势是节省时间。

如果有足够的时间,您很可能可以手动调整权重并得出非常适合您的特定数据集的匹配规则。机器学习方法可能很难胜过为特定数据集定制的手工系统。

但是,手工制作一个好的匹配系统可能需要几天时间。如果您使用现有的 ML 进行匹配工具,例如 Dedupe ,然后可以在一个小时内(包括设置时间)学习到好的权重和规则。

因此,如果您已经构建了一个在您的数据上表现良好的匹配系统,那么可能不值得研究 ML。但是,如果这是一个新的数据项目,那么它几乎肯定会是。

关于algorithm - 如何将机器学习应用于模糊匹配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43366705/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com