- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我遇到了一个特殊的问题。我的 servlet 收到一个 urlencoded 字符串,从日志中我可以看出这个字符串是正确的。
我试过这个字符串:
"test+%F0%9F%98%8E+1+%E2%99%A7+%E2%99%A2+%E2%99%A1+%E2%99%A4+%E3%80%8A"
如下:
"test 😎 1 ♧ ♢ ♡ ♤ 《"
然而,当我运行测试时,我得到的结果与我在服务器上得到的结果相同:
"test ? 1 ? ? ? ? ?"
转储我得到的十六进制代码
00: 74 65 73 74 20 3F 20 31 20 3F 20 3F 20 3F 20 3F | test ? 1 ? ? ? ?
10: 20 3F -- -- -- -- -- -- -- -- -- -- -- -- -- -- | ?
我期望的地方:
00: 74 65 73 74 20 F0 9F 98 8E 20 31 20 E2 99 A7 20 | test ... . 1 ...
10: E2 99 A2 20 E2 99 A1 20 E2 99 A4 20 E3 80 8A -- | ... ... ... ...
现在是“有趣”的部分。这发生在我的服务器和我的 Eclipse IDE 上,但如果我随后将源文件保存为 UTF-8,URLDecoder 将返回正确的数据!不过它对我的服务器没有帮助。
1:我看不出怎么会这样,URLDecoder 应该听取请求的编码。2:我显然需要一个 java.net.URLDecoder 的替代品,如果它这样做,它就从根本上被破坏了。有什么建议么?
测试代码:
public class URLDecoderTest {
public static void main(String[] args) {
String reqMsg = "test+%F0%9F%98%8E+1+%E2%99%A7+%E2%99%A2+%E2%99%A1+%E2%99%A4+%E3%80%8A";
System.out.println("reqMsg : " + reqMsg);
try {
reqMsg = URLDecoder.decode(reqMsg, "UTF-8");
} catch (UnsupportedEncodingException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
System.out.println("reqMsg : " + reqMsg);
System.out.println(HexTools.dump(reqMsg));
System.out.println("Expected (fixed):");
System.out.println("00: 74 65 73 74 20 F0 9F 98 8E 20 31 20 E2 99 A7 20 | test ... . 1 ... ");
System.out.println("10: E2 99 A2 20 E2 99 A1 20 E2 99 A4 20 E3 80 8A -- | ... ... ... ...");
}
}
注意:HexTools 来自 Mobicents: http://code.google.com/p/mobicents/source/browse/trunk/commons/src/main/java/org/mobicents/commons/HexTools.java?r=21908
编辑:查看 URLDecoder.decode 的源代码,它使用 new String(bytes, 0, pos, enc) 来解码字节。由于某种原因失败,但是对于 unicode,new String(bytes, 0, pos) 工作正常。
Java 的 StringCoding 类中是否存在错误,无论传递给它什么,它都会自动回退到“默认”字符集?String调用的decode方法是一个静态的,它在调用decode之前在另一个静态方法中设置了请求的编码,然后将使用这个静态。换句话说:它不是线程安全的!!!
更新:我在实现的几乎所有层中都遇到了问题。例如,Emoji 字符(4 字节 utf-8 字符)在 MySQL 上造成了麻烦。我从它那里得到了 asciified 字符,即使它被设置为 utf8。
结束语:部分问题,或者实际上是感知到的问题,是由 HexTools.dump(String) 的误用引起的,HexTools.dump(String) 是一个为处理二进制数据而构建的类,其中甚至 String 的字符也只包含低字节中的数据。
为了将来引用,对 HexTools.dump 的调用应该是:
System.out.println(HexTools.dump(reqMsg.getBytes("UTF-8")));
UnsupportedEncodingException 的 catch block 当然向下移动以覆盖该行。这样做会返回一个与预期相同的十六进制框架。
最佳答案
此代码按预期工作:
import java.io.IOException;
import java.net.URLDecoder;
public class Dump {
public static void main(String[] args) throws IOException {
String reqMsg =
"test+%F0%9F%98%8E+1+%E2%99%A7+%E2%99%A2+%E2%99%A1+%E2%99%A4+%E3%80%8A";
String decoded = URLDecoder.decode(reqMsg, "UTF-8");
// UTF-16
for (char ch : decoded.toCharArray()) {
System.out.format("%04x ", (int) ch);
}
System.out.println();
// UTF-8
for (byte ch : decoded.getBytes("UTF-8")) {
System.out.format("%02x ", 0xFF & ch);
}
}
}
但是,您可能会在此处丢失信息:
System.out.println
以上PrintStream将执行(可能有损)转码操作。来自文档:
All characters printed by a
PrintStream
are converted into bytes using the platform's default character encoding.
在许多系统上,Java 使用过时的遗留编码。
也可能是您的 servlet 容器配置错误。不确定最新版本是否如此,但 Tomcat 历来默认使用 ISO-8859-1 进行 URL 编码。
关于java.net.URLDecoder 依赖源文件编码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20610561/
我有一个项目,其中包含两个源文件和一个头文件(其中包含名为 Get.c 的源文件之一中定义的函数的原型(prototype)),问题是: 当我在另一个源文件中包含 Get.c 时,它给出了错误 错误:
有没有尽可能多的语法结构的java源代码文件? java 编译器的某种测试文件。我需要该文件来测试 java 源代码解析器。 最佳答案 看看 Java Compatibility Kit ,特别Tec
尝试在命令提示符下编译时,我在使用 codeblocks-16.01mingw-setup.exe - 安装在路径不包含空格的文件中时遇到问题。初学者指南建议在命令提示符中使用以下行: gcc car
我编写了一个使用 Cryptopp 库的程序。我已经创建了静态库并将其包含在我的分发版中,但是该程序还需要很多头文件。我的问题是我需要在我的发行版中包含所有这些头文件吗? 例如,我编写了一个代码,其中
我在源代码树中有 protobuf 原型(prototype)文件。我想在每次更改和首次运行时从原型(prototype)文件生成源文件(例如,我创建新的原型(prototype)文件)。然后,我想从
我知道在 Java 中加载文件而不指定要使用的编码是平台相关的。但我的问题是关于 .java 源文件本身中包含的文本:用于这些文件的编码是否仍然相关一旦编译? 例如,如果我在 Windows 上有一个
编辑:{ 我想我在这里添加了很多(太多)信息(阅读)。我想要的是: 我正在使用一个网站(没有.csproj文件) 我需要多个源代码文件才能运行我的aspx 据我所知,当请求aspx文件时,我要么需要使
我从 Asio 的示例页面中获取了以下代码 class tcp_connection : public boost::enable_shared_from_this { public: t
我已经使用 VS2010 为我的 C++ 应用程序创建了一个 Windows 安装部署。但是我的问题是我不知道如何将我自己的一些代码压缩到安装向导中(这可能吗?)。问题是在安装过程中我想要: 要求用户
最近我创建了一个 bash 脚本,我应该在 cron 中运行它。 准备好bash脚本并正常运行后,我将其放入Cron中,发现它失败了。作为第二步,我删除了所有环境依赖项,即我指定的不是 file.tx
考虑以下场景 例子.txt: ÄäÖöÜü Java 源代码: try (FileInputStream fileInputStream = new FileInputStream("example.
背景我主要使用嵌入式 C/C++ 进行编程,但有时我必须为我们的 API 进行一些 C# 编程。为此,我使用 Visual Studio 2017 为我们的客户创建 API DLL。 C# API 和
这个问题在这里已经有了答案: ggplot's qplot does not execute on sourcing (1 个回答) 关闭 9 年前。 考虑这种形式的源文件: # initializ
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,因为
我需要读取一个 Racket 源文件并通过宏扩展来运行它。我有一个简单的测试文件,Racket 本身很乐意接受: C:\ayane>type factorial.rkt #lang racket (p
我的源文件位于此文件夹中:c:\data\mycompany。我的所有源文件的第一行都包含以下内容:package mycompany;现在,我从 c:\data 文件夹中使用以下命令编译了所有内容:
这个问题在这里已经有了答案: #include all .cpp files into a single compilation unit? (6 个回答) The benefits / disadv
我对这个 JAVA RMI 项目真的很陌生。我只是想知道我可以使用什么编译器来编译我的JAVA源代码?以及如何做到这一点? 我正在尝试编译来自 http://www.eg.bucknell.edu/~
我想使用 Subversion 并仅 check out 源文件(例如:仅 check out .c 、 .cpp 和 .h 文件)。这可能吗 ?如果是这样,我该怎么做? 我正在尝试从以下位置获取 w
有没有办法使用指向唯一头文件的不同配置(或不同方法)来设置单个项目。 我想创建一个包含两个头文件的 C 项目(例如 header1.h 和 header2.h)。在我的 .c 源文件中,我定义了两个配
我是一名优秀的程序员,十分优秀!