java.net.URLDecoder 依赖源文件编码？-6ren

java.net.URLDecoder 依赖源文件编码？

转载作者：行者123 更新时间：2023-11-29 03:26:49

24

4

我遇到了一个特殊的问题。我的 servlet 收到一个 urlencoded 字符串，从日志中我可以看出这个字符串是正确的。

我试过这个字符串:

"test+%F0%9F%98%8E+1+%E2%99%A7+%E2%99%A2+%E2%99%A1+%E2%99%A4+%E3%80%8A"

如下:

"test 😎 1 ♧ ♢ ♡ ♤ 《"

然而，当我运行测试时，我得到的结果与我在服务器上得到的结果相同:

"test ? 1 ? ? ? ? ?"

转储我得到的十六进制代码

00: 74 65 73 74 20 3F 20 31  20 3F 20 3F 20 3F 20 3F | test ? 1  ? ? ? ? 
10: 20 3F -- -- -- -- -- --  -- -- -- -- -- -- -- -- |  ?

我期望的地方:

00: 74 65 73 74 20 F0 9F 98  8E 20 31 20 E2 99 A7 20 | test ... . 1 ... 
10: E2 99 A2 20 E2 99 A1 20  E2 99 A4 20 E3 80 8A -- | ... ...  ... ...

现在是“有趣”的部分。这发生在我的服务器和我的 Eclipse IDE 上，但如果我随后将源文件保存为 UTF-8，URLDecoder 将返回正确的数据!不过它对我的服务器没有帮助。

1:我看不出怎么会这样，URLDecoder 应该听取请求的编码。2:我显然需要一个 java.net.URLDecoder 的替代品，如果它这样做，它就从根本上被破坏了。有什么建议么？

测试代码:

public class URLDecoderTest {
    public static void main(String[] args) {
        String reqMsg = "test+%F0%9F%98%8E+1+%E2%99%A7+%E2%99%A2+%E2%99%A1+%E2%99%A4+%E3%80%8A";
        System.out.println("reqMsg      : " + reqMsg);
        try {
            reqMsg = URLDecoder.decode(reqMsg, "UTF-8");
        } catch (UnsupportedEncodingException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        System.out.println("reqMsg      : " + reqMsg);
        System.out.println(HexTools.dump(reqMsg));
        System.out.println("Expected (fixed):");
        System.out.println("00: 74 65 73 74 20 F0 9F 98  8E 20 31 20 E2 99 A7 20 | test ... . 1 ... ");
        System.out.println("10: E2 99 A2 20 E2 99 A1 20  E2 99 A4 20 E3 80 8A -- | ... ...  ... ...");
    }
}

注意:HexTools 来自 Mobicents: http://code.google.com/p/mobicents/source/browse/trunk/commons/src/main/java/org/mobicents/commons/HexTools.java?r=21908

编辑:查看 URLDecoder.decode 的源代码，它使用 new String(bytes, 0, pos, enc) 来解码字节。由于某种原因失败，但是对于 unicode，new String(bytes, 0, pos) 工作正常。

Java 的 StringCoding 类中是否存在错误，无论传递给它什么，它都会自动回退到“默认”字符集？String调用的decode方法是一个静态的，它在调用decode之前在另一个静态方法中设置了请求的编码，然后将使用这个静态。换句话说:它不是线程安全的!!!

更新:我在实现的几乎所有层中都遇到了问题。例如，Emoji 字符(4 字节 utf-8 字符)在 MySQL 上造成了麻烦。我从它那里得到了 asciified 字符，即使它被设置为 utf8。

结束语:部分问题，或者实际上是感知到的问题，是由 HexTools.dump(String) 的误用引起的，HexTools.dump(String) 是一个为处理二进制数据而构建的类，其中甚至 String 的字符也只包含低字节中的数据。

为了将来引用，对 HexTools.dump 的调用应该是:

        System.out.println(HexTools.dump(reqMsg.getBytes("UTF-8")));

UnsupportedEncodingException 的 catch block 当然向下移动以覆盖该行。这样做会返回一个与预期相同的十六进制框架。

最佳答案

此代码按预期工作:

import java.io.IOException;
import java.net.URLDecoder;

public class Dump {
  public static void main(String[] args) throws IOException {
    String reqMsg = 
         "test+%F0%9F%98%8E+1+%E2%99%A7+%E2%99%A2+%E2%99%A1+%E2%99%A4+%E3%80%8A";
    String decoded = URLDecoder.decode(reqMsg, "UTF-8");
    // UTF-16
    for (char ch : decoded.toCharArray()) {
      System.out.format("%04x ", (int) ch);
    }
    System.out.println();
    // UTF-8
    for (byte ch : decoded.getBytes("UTF-8")) {
      System.out.format("%02x ", 0xFF & ch);
    }
  }
}

但是，您可能会在此处丢失信息:

System.out.println

以上PrintStream将执行(可能有损)转码操作。来自文档:

All characters printed by a PrintStream are converted into bytes using the platform's default character encoding.

在许多系统上，Java 使用过时的遗留编码。

也可能是您的 servlet 容器配置错误。不确定最新版本是否如此，但 Tomcat 历来默认使用 ISO-8859-1 进行 URL 编码。

关于java.net.URLDecoder 依赖源文件编码？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20610561/

24

4

0

文章推荐： java - Maven 生成 jar 依赖然后 war

文章推荐： ios - 在设备上运行应用程序时 EXC_BAD_ACCESS

文章推荐： ios - 如何在IOS中使用Github上的库？

dependencies - gobject 依赖 glib 还是 glib 依赖 gobject？
我在 gobject 上阅读了一个维基百科页面，上面写着， Depending only on GLib and libc, GObject is a cornerstone of GNOME and
wpf - 依赖属性依赖于另一个
如何注册一个依赖属性，其值是使用另一个依赖属性的值计算的？由于 .NET 属性包装器在运行时被 WPF 绕过，因此不应在 getter 和 setter 中包含逻辑。解决方案通常是使用 Proper
ActionBarSherlock maven 依赖
我一直在尝试将 ActionbarSherlock maven 依赖项添加到我的项目中 com.actionbarsherlock library 4.2.0 在我的 po
oop - 依赖/依赖是什么意思？
http://tutorials.jenkov.com/ood/understanding-dependencies.html#whatis说(强调我的): Whenever a class A us
wpf - 依赖/附加属性如何在内部工作以及值存储在哪里？
我对所有这些魔法有点不清楚。据我了解，依赖属性是从 DependencyObject 继承的，因此存储值: 如果分配了值(在本地字典中)，则在实例本身中或者如果未指定值，则从指向父元素的链接中获取
Twilio RestSharp 依赖
我刚刚更新了在 ASP.NET Framework 4.5.2 版上运行的 MVC Web 应用程序。我正在使用 Twilio 发送 SMS 消息: var twilio = new TwilioRe
java - Spring 依赖
我刚刚发现了一件令人生畏的事情。 spring 依赖坐标有两个版本。项目依赖于 spring mvc 和 spring flow。有两组并行的依赖项。 Spring MVC 具有以下方案的依赖项
Maven 依赖 picocontainer
我正在尝试包含的 maven 依赖项 org.jacorb jacorb 2.3.1 依赖已解决，但它导致另一个依赖 picocontainer 出现问题: [ERROR
Haskell 依赖 hell
我正在尝试在 Haskell 项目中包含特定版本的库。该库是住宿加早餐型的(用于 martix 操作)，但我需要特定的 0.4.3 版本，该版本修复了乘法实现的错误。所以，我的 stack.yaml
iphone - 依赖 UIPickerView
有谁知道如何制作依赖的 UIPickerView.例如，当我选择组件一的第 2 行时，组件二的标题会发生变化吗？我在互联网上查找过，没有真正的答案，我尝试过使用 if 和 switch 语句，但它们
Maven WAR 依赖
我正在编写一个用于验收测试的项目，由于各种原因，这依赖于另一个打包为 WAR 的项目。我已成功使用 maven-dependency-plugin 解压 WAR，但无法让我的项目包含解压的 WEB-I
Django，依赖 session
或多或少我在 session 上大量构建我的网站(特别是重定向用户等)，我很好奇这是否是一种危险的做法。禁用浏览器 cookie 保存的用户的大致比例是多少？我愿意接受任何建议:) 谢谢最佳答案 s
scala - 依赖 future
开始玩 Scala futures，我被依赖的 futures 困住了。让我们举个例子。我搜索地点并获得 Future[Seq[Place]]。对于这些地点中的每一个，我搜索最近的地铁站(该服务返回
Django，依赖 session
或多或少我在 session 上大量构建我的网站(特别是重定向用户等)，我很好奇这是否是一种危险的做法。禁用浏览器 cookie 保存的用户的大致比例是多少？我愿意接受任何建议:) 谢谢最佳答案 s
c - GLIBC 依赖
我有一个二进制文件，需要一些 *.so 文件才能执行。现在，当我尝试在一些旧机器上执行它时，它会显示 /lib/libc.so.6: version `GLIBC_2.4' not found 如何将
javascript - DyGraph 依赖
我尝试使用 Dygraph 来表示图表，我在 https://github.com/danvk/dygraphs 中找到了代码，但是它有太多的依赖文件，我觉得很烦人。是否有一个文件可以容纳所有必需的
javascript - Jasmine 依赖
我正在处理一个 javascript 文件，该文件 a) 声明一个具有函数的对象，并且 b) 使用它期望在外部声明的散列调用该对象的 init 函数。我的 Jasmine 规范提示它找不到哈希，因为它
javascript - Angular 依赖
最近我一直在学习 Angular 并且进展顺利，但是关于依赖注入(inject)的一些事情我仍然不清楚。是否有任何理由在我的 app.js 文件中声明我的应用程序的其他部分(服务、 Controll
php - 依赖 "mysql_insert_id"
考虑一个名为 foo 的表，它有 id (PRIMARY & AUTO_INCREMENT) 列。我正在向该表中插入一行，挑战从此时开始。 $db->query("INSERT INTO `foo`
javascript - 依赖/级联下拉菜单
我正在使用级联下拉 jquery 插件。 (https://github.com/dnasir/jquery-cascading-dropdown) 我有两个下拉菜单。 “客户端”和“站点”。根据您

首页

博学

6Ren·AI

商城

java.net.URLDecoder 依赖源文件编码？