gpt4 book ai didi

edit - 如何将 TF-IDF 与编辑距离或 Jaro-winkler 距离结合起来

转载 作者:行者123 更新时间:2023-12-03 15:02:12 24 4
gpt4 key购买 nike

我正在寻找方法来提高字符串匹配(相似性)中 TF-IDF 权重方案的准确性。主要问题是 TF-IDF 对 stings 中的打印错误很敏感,而且大多数大型数据集往往有错别字。
我意识到编辑距离的变体(基于字符的相似性度量——levienshtein、affine-gas、Jaro 和 Jaro-winkler)适用于计算存在打印错误的字符串之间的相似性,但不适用于在字符串。

因此,我想使用编辑距离校正能力来提高 TF-IDF 的准确性。

任何关于如何应对这一挑战的想法都将受到高度赞赏。

提前致谢。

最佳答案

CMU 研究人员在 2003 年发表了一篇论文,他们解释了如何将 TFIDF 与 Jaro-Winkler 结合起来:
https://www.cs.cmu.edu/~pradeepr/papers/ijcai03.pdf

他们的 Java 代码也可以在 sourceforge 上作为 secondString 项目获得:
https://sourceforge.net/projects/secondstring/

这是 Javadocs 的链接:
http://secondstring.sourceforge.net/javadoc/

secondString 项目页面:
http://secondstring.sourceforge.net/

关于edit - 如何将 TF-IDF 与编辑距离或 Jaro-winkler 距离结合起来,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15977624/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com