text - 确定文本正文是否包含有效单词或仅包含 "gibberish"-6ren

text - 确定文本正文是否包含有效单词或仅包含 "gibberish"

转载作者：行者123 更新时间：2023-12-04 05:37:35

25

4

我对识别任何给定文本主体是否包含有效、实际的单词或只是乱码文本的想法很感兴趣。

我立即遇到的问题是它需要与语言无关，因为我们处理的数据是高度国际化的。这意味着要么是一种统计方法，要么是一种非常大的、多语言的哈希表方法。

多语言哈希表看起来很简单，但很笨重，而且可能很慢。 (或者至少，速度和准确性之间的折衷。)

但是，我并不真正了解在这种情况下对我有用的统计方法，非常感谢任何人的经验或意见，或任何其他建议。

最佳答案

你可以使用 ngram分析以将您的文本与示例文本进行比较。这可以是字符或单词。

谷歌的 NGram Viewer可以帮助形象化我的意思。例如，如果我搜索“haddock refrigerator”，则不会出现任何情况(例如，它是乱码)，而“stack overflow”显示一旦计算机出现，就会出现突出情况。

关于text - 确定文本正文是否包含有效单词或仅包含 "gibberish"，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11725914/

25

4

0

文章推荐： java - GWT XY 绘图

text - 确定文本正文是否包含有效单词或仅包含 "gibberish"
我对识别任何给定文本主体是否包含有效、实际的单词或只是乱码文本的想法很感兴趣。我立即遇到的问题是它需要与语言无关，因为我们处理的数据是高度国际化的。这意味着要么是一种统计方法，要么是一种非常大的、多
python - 为什么 pip freeze 返回一些 "gibberish"而不是 package==VERSION？
这是我所做的: ❯ pip freeze aiohttp @ file:///Users/aiven/Library/Caches/pypoetry/artifacts/50/32/0b/b64b02
asp.net-mvc-3 - 为什么/eurl.axd/Gibberish 被添加到我的页面末尾？
我一直在努力将我们的网站移至公共(public)测试版服务器，在我们配置 IIS 以匹配内部测试服务器后，我注意到了这个问题。该应用程序仍然有效，但它最后有这些丑陋的东西。是什么导致这个显示？我已经
windows - 在 Win7 中，Unicode/UTF-8 文本文件 : gibberish on Windows console (Trying to display hebrew)
我有一个宽字 rune 件(带有希伯来语文本)，在记事本中看起来不错(以“UTF-8 编码”保存)，在 Notepad++ 中读取良好，当我复制并粘贴到 MS Word 中时，它看起来也不错。但是，当