gpt4 book ai didi

unicode - 日本mojibake检测

转载 作者:行者123 更新时间:2023-12-03 17:58:51 26 4
gpt4 key购买 nike

我想知道是否有办法通过字节范围检测 mojibake(无效)字符。 (举个简单的例子,检测有效的 ascii 字符只是看它们的字节值是否小于 128)鉴于旧的自定义字符集,例如 JIS、EUC,当然还有 UNICODE,有没有办法做到这一点?

直接感兴趣的是一个 C# 项目,但我想尽可能地找到一个语言/平台独立的解决方案,这样我就可以在 C++、Java、PHP 或其他任何东西中使用。

阿里加托

最佳答案

按字节范围检测文字化け(mojibake)非常困难。

如您所知,大多数日语字符由多字节组成。在 Shift-JIS(日本最流行的编码之一)情况下,日语字符的第一个字节范围是 0x81 到 0x9f 和 0xe0 到 0xef,第二个字节有其他范围。此外,可以将 ASCII 字符插入到 Shift-JIS 文本中。它很难。

在 Java 中,您可以使用 java.nio.charset.CharsetDecoder 检测无效字符。 .

关于unicode - 日本mojibake检测,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6536859/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com