gpt4 book ai didi

正则表达式:忽略额外的字符

转载 作者:行者123 更新时间:2023-12-04 18:53:31 25 4
gpt4 key购买 nike

我试图弄清楚如何检测垃圾邮件单词中的额外字符,例如:
pha.rmacyvi*agra
有任何想法吗?

最佳答案

您可以使用(不同)相似性度量,例如 edit distance .例如,vi.agra 和 viagra 之间的编辑距离为 1。

然后,您确定给定的单词与垃圾邮件单词相同,如果它们之间的编辑距离低于某个阈值,例如 2。

但是如果你真的想使用正则表达式,你可以使用类似 /[^a-zA-Z0-9-\s]/ 的东西。从单词中删除标点符号。但是话又说回来,您将无法识别类似 viZagra 的内容。与 viagra 同一个词.

关于正则表达式:忽略额外的字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2512187/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com