gpt4 book ai didi

HTML 中的 Java GB2312 字符串无法正确显示

转载 作者:行者123 更新时间:2023-11-30 07:40:48 25 4
gpt4 key购买 nike

我正在尝试从中文网站读取 HTML 并获取它们的 <title>值(value)。所有使用 UTF-8 编码的网站都可以正常工作,但不适用于 GB2312 网站(例如 m.39.net,它显示 39������_�й����ȵĽ����Ż���վ 而不是 39健康网_中国领先的健康门户网站 )。

这是我用来完成此任务的代码:

URL url = new URL(urlstr);
URLConnection connection = url.openConnection();
inputStream = connection.getInputStream();
String content = IOUtils.toString(inputStream);

最佳答案

String content = IOUtils.toString(inputStream, "GB2312");可能会有所帮助。

如果你想检测网页的字符集,据我所知有3种方法:

  1. 使用connection.getContentEncoding()获取 HTTP header 中描述的字符集;
  2. 解析<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1"><meta charset="UTF-8">在 HTML 代码中(必须先下载 HTML 内容,然后读取几行);
  3. 使用第三方库。例如。 question中提到的那些.

关于HTML 中的 Java GB2312 字符串无法正确显示,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34730163/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com