gpt4 book ai didi

java - 如何检测网页的字符集

转载 作者:行者123 更新时间:2023-11-29 08:10:05 25 4
gpt4 key购买 nike

我只想获取java语言的网页源码,我只想获取正确编码类型的内容。到目前为止,我能够获取网页的内容。但对于某些网页,内容带有荒谬的字符。所以我需要检测该网页的字符集。

根据我的一些研究,我发现有一个 jChardet 库可以执行此操作。但是我无法将它导入到我的项目中。有人可以帮帮我吗?

顺便说下下面的代码是读取网页内容的代码

  StringBuilder builder = new StringBuilder(); 
InputStream is = fURL.openStream();
BufferedReader buffer = null;
buffer = new BufferedReader(new InputStreamReader(is, encodingType));

int byteRead;
while ((byteRead = buffer.read()) != -1) {
builder.append((char) byteRead);
}
buffer.close();

return builder;

最佳答案

读取 HTTP 响应的 Content-Type header ,这是获取字符集的最佳方式。仅在您别无选择时才应用猜测 - 您确实如此。

关于java - 如何检测网页的字符集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8636215/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com