java - UTF-8 和 ISO-8859-1 不适用于 Java 中的欧洲字符集解码-6ren

java - UTF-8 和 ISO-8859-1 不适用于 Java 中的欧洲字符集解码

转载作者：太空宇宙更新时间：2023-11-04 14:13:06

24

4

您好，我有一个 HTML 页面，我正在从中抓取数据。该页面使用UTF-8字符集并包含德语和其他欧洲字母

<meta charset="utf-8">

但是当我尝试在 Java 中将其解码为 ISO-8859-1 和 UTF-8 时，却没有任何效果。我无法获取欧洲字符，而是得到如下值:

Bayern MÃ¼nchen
Bor. MÃ¶nchengladbach
JÃ©rÃ´me Boateng

以下是我的代码片段:

               URL myUrl = new URL("http://www.weltfussball.de/spielplan/bundesliga-"
                                + season + "-spieltag/" + gameDay + "/");

    in = new BufferedReader(new InputStreamReader(myUrl.openStream(), "ISO-8859-1"));

                while ((line = in.readLine()) != null) {
                    all += line;
                }

我注意到的一件事是，当我打印 String line; 时，它会在 java 控制台上正确打印所有拉丁字符，但是一旦我将其连接到 String all; 字符就会困惑......任何人都可以提出解决方案吗？

最佳答案

首先，尝试查看页面是否真的像它假装的那样使用 UTF-8:

final CharsetDecoder decoder = StandardCharsets.UTF_8.newDecoder()
    .onMalformedInput(CodingErrorAction.REPORT);

try (
    final InputStream in = url.openStream();
    final Reader reader = new InputStreamReader(in, decoder);
) {
    /* read the contents */
}

如果该程序抛出MalformedInputException，那么您就知道该页面在撒谎。

但是，鉴于您的输出，我怀疑问题是您的显示器无法正确读取 UTF-8。

关于java - UTF-8 和 ISO-8859-1 不适用于 Java 中的欧洲字符集解码，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28052592/

24

4

0

文章推荐： javascript - 关闭 HTML5 视频中的音量控制和静音按钮

文章推荐： c++ - Boost.Regex 分隔符解析

文章推荐： c++ - 如何通过 boost asio 向客户端发送 OpenNI 深度图？

文章推荐： java - thymeleaf 遍历 String 以创建 img 标签

iso - ISO 8583 的完整声明
我想知道是否可以通过 ISO 8583 做一个完整的声明(在一个日期范围之间)，我看到 ATM 可以做完整的声明并且想知道他们使用什么方法。我知道余额查询和迷你报表可以在超过 8583 的 POS 设
iso - 7zip ISO 提取
我一直在尝试通过 7zip 和 WinRar 提取 ISO 镜像。这是我使用的命令行: 7z x -y "%Isocontents%\ISO.iso" -o%Newfolder% WinRar.ex
internationalization - 获取给定 IETF 语言标签(或 ISO 639-ISO 3166-1 对)的 ISO 15924 脚本代码
我正在将 ICU 集成到一些内部软件中。我希望能够获取诸如“en_US”之类的字符串并为其获取脚本名称“Latin”。 (虽然最终我实际上想要一个 ICU ScriptCode。) 我尝试使用 ICU
r - 使用仅包含 ISO 周的数据集将 ISO 周聚合为几个月
我的数据位于一个数据框中，其结构如下: df2 <- data.frame(Year = c("2007"), Week = c(1:12), Measurement = c(rnorm(12, me
SQL 获取 ISO 周的 "ISO Year"
我需要计算一周分配到的年份。例如，2003 年 12 月 29 日被指定为 2004 年的第一周(我认为这仅适用于欧洲)。您可以使用以下代码来查看: SELECT DATEPART(isowk, '2
android - 如何提取 ISO 文件，然后将其重新打包成可用的 ISO 文件？
我想做什么？我想提取 ISO 文件并编辑其中的文件，然后将其重新打包回 ISO 文件。 (正如你已经读过的) 我为什么要这样做？我想开始修改 PSP ISO，为此我必须使用游戏资源、 Assets
project-management - ISO 标准如何运作(尤其是 ISO 9126)
关闭。这个问题需要更多focused .它目前不接受答案。想改善这个问题吗？更新问题，使其仅关注一个问题 editing this post . 2年前关闭。 Improve this questi
python - Python 中的 ISO 时间 (ISO 8601)
我有一个文件。在 Python 中，我想占用它的创建时间，并将其转换为 ISO time (ISO 8601) string 同时保留它是在 Eastern Time Zone 中创建的事实。 (美国
localization - ISO 639 语言列表，翻译成每种 ISO 639 语言
关闭。这个问题是off-topic .它目前不接受答案。想改善这个问题吗？ Update the question所以它是 on-topic对于堆栈溢出。 8年前关闭。 Improve this q
matplotlib - 二维标量场 : draw iso surface (iso line) with opacity
我在二维网格上有两个标量场。我想为第一个标量场绘制一条等值线，并根据第二个标量场设置其不透明度。我从 this SO answer 开始尝试使用 mayavi但我无法从 3D 切换到 2D。下面是
haskell - 为什么镜头包含用于 fromEnum/toEnum 的 Iso，而不包含用于显示/读取的 Iso？
假设您声明两个同构 showing :: (Read a, Show a) => Iso' String a showing = iso read show reading :: (Read a, S
python - 将 ISO 639-1 转换为 ISO 639-2
已关闭。此问题旨在寻求有关书籍、工具、软件库等的建议。不符合Stack Overflow guidelines准则。它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，
java - 在 Java 中检查字符串是否是 ISO 语言的 ISO 国家/地区的更简洁方法
假设有一个两个字符的String，它应该代表ISO 639国家或语言名称。你知道，Locale类有两个函数 getISOLanguages和 getISOCountries分别返回包含所有 ISO
iso - STEP 第 21 部分 (ISO 10303-21) CAD 文件中的值是否可以自由嵌入到实体中？
实体中的值是否可以自由嵌入到 ISO 10303-21 格式的文件中？在我看到的所有由 CAD 程序生成的示例中，length_measure 都嵌入在uncertainty_measure_wit
automation - Vagrant 是否可以直接使用操作系统 .ISO 安装镜像/或动态地从 ISO 创建 Vagrant 盒子？
是否可以从原始 ISO 自动创建用于操作系统安装的 Vagrant .box 文件？对我来说，Vagrant 提供的虚拟机上操作系统安装和配置的端到端自动化存在巨大差距。当然，VagrantBox
javascript - 使用 MomentJS 将 ISO 8601 转换为不同的 ISO 8601 格式
有没有办法实现这样的格式: 2003-09-25T14:00:00.000+1000 or 2003-09-25T14:00:00.000+1100 要这样转换 2003-09-25T14:00:00
java - ResolverStyle.STRICT 在 `@DateTimeFormat(iso = DateTimeFormat.ISO.DATE)` 中不起作用
我正在使用: @DateTimeFormat(iso = DateTimeFormat.ISO.DATE) @JsonFormat( pattern = "MM-dd-yyyy" ) private
java - 国家/地区代码 (iso-3166-1/iso-3166-2) 到经度和纬度
我需要将 iso-3166-1/iso-3166-2 代码转换为经度/纬度例子: 输入:“美国”，输出:(37.09024, -95.71289100000001)。输入“VE-O”，输出:(10
c++ - 基于 ISO-639/ISO-3166 的语言/国家语言环境名称与 Windows 名称之间的转换表
我想转换 POSIX 语言环境名称，例如 en_US、de_DEISO-639-1 和 ISO-3166 代码到 Windows English_United States、German_German
php - UTF-8 : successful conversion to iso-8859-1 but not to iso-8859-2
我在 MS Access 上有一个数据库，我通过调用 PDO 和 odbc 驱动程序将其与 PHP 一起使用。我的数据库中有法语、丹麦语和波兰语单词。法语和丹麦语没问题，但波兰语字符没办法，我只得到“

首页

博学

6Ren·AI

商城

java - UTF-8 和 ISO-8859-1 不适用于 Java 中的欧洲字符集解码