gpt4 book ai didi

algorithm - 在次二次时间删除 "almost duplicate"字符串

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:26:45 25 4
gpt4 key购买 nike

我正在尝试对现实生活中的数据集(酒店评论)进行机器学习。不幸的是,它被垃圾邮件所困扰,这些垃圾邮件以几乎相同的评论的形式出现,这让我的事情变得非常复杂。

我想根据编辑距离或类似的东西从数据集中删除“几乎重复”,并且由于数据集大小 >100K,算法必须在数据集大小上是次二次的。现在我只能想到标记重复次数过多的单个句子或短语,然后删除所有包含它们的评论,但很容易看出这种策略会适得其反。有没有更好的通用算法?

最佳答案

显然,要从整体上解决这个问题可能需要撰写一篇像样的研究论文。这是我的建议。

在生物信息学中,我们一直面临这个问题。最常用的算法是 BLAST ( http://en.wikipedia.org/wiki/BLAST )。请通过算法,您可能会了解所涉及的内容。

关于algorithm - 在次二次时间删除 "almost duplicate"字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21047858/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com