gpt4 book ai didi

java - org.apache.commons.io.IOUtils.toString 错误解释 UTF-8

转载 作者:行者123 更新时间:2023-12-04 05:36:33 26 4
gpt4 key购买 nike

我正在尝试从 URI 获取源。它被报告为UTF-8。我也尝试过 ISO-8859-1、ISO-8859-1 Windows-1250 和 ISO-8859-2。

这是我最近尝试的代码(尝试 ISO-8859-2):

public static String getPage(String page,String charset) throws IOException{
URL url=new URL(page);

return org.apache.commons.io.IOUtils.toString(url.openConnection().getInputStream(),charset);
}

public static void main(String args[])throws Exception{
String page=getPage("http://buscon.rae.es/drae/srv/search?val=aba","ISO-8859-2");
System.out.println(page);
}

但结果是:

apÄ?ge 'quita, aparta', y este del gr. á¼?Ï?αγε)

而不是:

(Del lat. apăge 'quita, aparta', y este del gr. ἄπαγε)。

同样,UTF-8(适用于其他代码和浏览器)和其他编码名称也以类似的方式失败。

最佳答案

U+0103 (ă) 被编码为字节序列 C4 83 ;这个数据是UTF-8。

该错误可能是由于您通过 PrintStream 执行的其他转码操作所致。附于 System.out .这会将数据编码为 system encoding ,这可能是有损转换,如果写入的设备不使用匹配的编码,则可能会导致损坏。

您可以阅读有关 Windows 控制台 here 的一些分析。 .

关于java - org.apache.commons.io.IOUtils.toString 错误解释 UTF-8,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11849624/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com