gpt4 book ai didi

mysql - 检测重复的帖子

转载 作者:行者123 更新时间:2023-11-29 12:00:50 24 4
gpt4 key购买 nike

我正在写一些东西,允许您发布一些长格式的内容,例如不需要注册的博客文章。我想检测帖子是否重复。需要明确的是,它不一定是完美的,只需捕获明显的欺骗行为,例如垃圾邮件发送者或前端代码失败并且用户发送两个请求来创建帖子或其他内容的错误。

我最初的想法是删除特殊字符、空格和一些常见单词,例如 and、but、or 等,然后对其进行 md5。然后我可以在数据库中存储“duplicate_hash”或其他内容。

然后,当您发布内容时,它会在数据库上查询该唯一的哈希值。如果找到哈希值,您会收到重复错误。

这会很好用还是有更好的主意?如果我没有找到任何特定的工具,我们正在使用 Node 和 MySQL。

最佳答案

如果您的目标是防止有人点击刷新或后退按钮而重复提交,那么消息将完全相同,因此这是一个简单的匹配。

如果您的目标是防止垃圾邮件,那么消息的 md5 哈希值可能是特定的,因为简单地更改字符会产生不同的哈希值。

如果您想坚持使用 md5 哈希,您可以仅对一部分消息进行哈希处理,例如 100 个字符到 500 个字符。或者将所有内容都小写,删除您所说的常见单词,选择前 25 或 50 个单词,然后对其进行哈希处理。

关于mysql - 检测重复的帖子,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32408121/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com