gpt4 book ai didi

java - 如何检测文件的字符编码?

转载 作者:行者123 更新时间:2023-12-01 05:53:56 35 4
gpt4 key购买 nike

我们的应用程序从用户处接收文件,如果这些文件属于我们支持的编码类型(即 UTF-8、Shift-JIS、EUC-JP),则必须对其进行验证,一旦该文件经过验证,我们就会还需要将该文件保存在我们的系统中,并将其编码作为元数据。

目前,我们正在使用 JCharDet (这是 mozilla 字符检测器的 java 端口),但是有一些 Shift-JIS 字符似乎无法检测为有效的 Shift-JIS 字符。

有什么想法我们还可以使用吗?

最佳答案

ICU4J 的 CharsetDetector会帮助你的。

BufferedInputStream bis = new BufferedInputStream(new FileInputStream(path));
CharsetDetector cd = new CharsetDetector();
cd.setText(bis);
String charsetName = cd.detect().getName();

请问是什么字符导致了这个错误,导致了什么样的错误?我认为 ICU4J 也会有同样的问题,具体取决于字符和错误。

关于java - 如何检测文件的字符编码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3684530/

35 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com