gpt4 book ai didi

python - 计算字符串被随机化的概率? - Python

转载 作者:行者123 更新时间:2023-11-28 20:11:37 26 4
gpt4 key购买 nike

这与我之前提出的问题相关 (question)

我有一个手动创建的字符串列表,例如:

lucy87

gordan_king

fancy_unicorn77

joplucky_kanga90

base_belong_to_narwhals

和一个随机字符串列表:

johnkdf

pancake90kgjd

fancy_jagookfk

manhattanljg


最后一组字符串被随机化的原因在于 'kjg'、'jgf'、'lkd'、 ... 等序列。

有什么巧妙的方法可以将包含这些明显随机字符串的字符串从人群中分离出来?

我想这在很大程度上取决于某些字符更可能被放置在其他字符旁边(例如“co”、“ka”、“ja”……)。


对此有什么想法吗? Kylotan 提到了 Reverend,但我不确定它是否可以用于此目的。

帮助将不胜感激!

最佳答案

这只是一个想法。我自己从未尝试过...

通过对字典中找到的每个(重叠)4 字母序列进行散列来构建布隆过滤器。通过计算字符串中有多少个 4 字母序列未命中过滤器来测试字符串。未命中的次数越多,该词包含随机垃圾的可能性就越大。

尝试调整布隆过滤器的大小和每个序列的字母数。

另请注意(感谢@MihaiD)您应该在布隆过滤器中包含一个名称字典,最好是来自多种语言的名称字典,以尽量减少误报。

关于python - 计算字符串被随机化的概率? - Python,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2833531/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com