gpt4 book ai didi

text - 确定文本正文是否包含有效单词或仅包含 "gibberish"

转载 作者:行者123 更新时间:2023-12-04 05:37:35 25 4
gpt4 key购买 nike

我对识别任何给定文本主体是否包含有效、实际的单词或只是乱码文本的想法很感兴趣。

我立即遇到的问题是它需要与语言无关,因为我们处理的数据是高度国际化的。这意味着要么是一种统计方法,要么是一种非常大的、多语言的哈希表方法。

多语言哈希表看起来很简单,但很笨重,而且可能很慢。 (或者至少,速度和准确性之间的折衷。)

但是,我并不真正了解在这种情况下对我有用的统计方法,非常感谢任何人的经验或意见,或任何其他建议。

最佳答案

你可以使用 ngram分析以将您的文本与示例文本进行比较。这可以是字符或单词。

谷歌的 NGram Viewer可以帮助形象化我的意思。例如,如果我搜索“haddock refrigerator”,则不会出现任何情况(例如,它是乱码),而“stack overflow”显示一旦计算机出现,就会出现突出情况。

关于text - 确定文本正文是否包含有效单词或仅包含 "gibberish",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11725914/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com