gpt4 book ai didi

algorithm - 在随机文本中寻找语言模式

转载 作者:塔克拉玛干 更新时间:2023-11-03 03:29:44 26 4
gpt4 key购买 nike

我编写了一个脚本来生成可能的 Twitter 句柄并检查它们的可用性。它只是遍历允许符号的不同组合:a-z, 0-9, _。目前它已经检查了 1926220 个组合,即每个组合包含 1-5 个符号。以下是简要结果:0 个免费帐户可获得 1、2 和 3 个符号,750 可免费获得 4 个,442711 可获得 5 个。

我想知道是否可以编写一个算法来分析这些列表并在其中找到人类可读 的单词。这是一个例子:

elnsv
elnt8
eloq4
elosu
elq0_
elq15
elq46

elosu 这个词各不相同,原来在西类牙甚至还有一个小镇叫 Elosu。人类如何区分这样的词?我想我可以试着制作一本不同语言的音节词典,然后尝试用它来比较单词。你能帮我解决公式或其他问题吗?

更新: 对于那些想要尝试实现它的人,这里是 5-symbol handles 的链接.

最佳答案

我会尝试使用 wisdom of the crowd解决这个问题。

  1. Google 会显示大约 个包含该查询的页面,例如,对我来说,您示例中的查询 elnsv(通过不使用“您是否mean to..") 给出了大约 60k 个结果,查询 elq0_ 有大约 23k 页,而“真实”单词 elosu 有大约 330k 匹配页面。这强烈表明该词比其他词更可能有意义。因此,基本上这种方法意味着:使用一些搜索引擎并使用其结果来确定什么是有意义的,什么不是。

  2. 单词 elosu 有一个 wikipedia article ,虽然这不是你的意思,但它仍然有帮助。请注意,维基百科方法可以很好且非常准确地确定哪个术语是一个有意义的词,但在消除术语方面会有问题,因此我将其用作管道中的第一级“判断”,并将其余的提供给其他人评委。

关于algorithm - 在随机文本中寻找语言模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18166672/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com