- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
假设我有 😈(魔鬼)表情符号。
在 4 字节 UTF-8 中,它的表示方式如下:\u00f0\u009f\u0098\u0088
但是,在 Java 中,它只能正确打印,如下所示:\ud83d\ude08
如何从第一个转换为第二个?
更新2
MNEMO 的答案要简单得多,并且回答了我的问题,因此最好采用他的解决方案。
更新
感谢巴兹尔· boolean 克 (Basil Bourque) 的撰写。这非常有趣。
我在这里找到了一个很好的引用:https://github.com/pRizz/Unicode-Converter/blob/master/conversionfunctions.js (特别是convertUTF82Char()函数)。
对于将来路过这里的任何人来说,Java 中的情况如下:
public static String fromCharCode(int n) {
char c = (char)n;
return Character.toString(c);
}
public static String decToChar(int n) {
// converts a single string representing a decimal number to a character
// note that no checking is performed to ensure that this is just a hex number, eg. no spaces etc
// dec: string, the dec codepoint to be converted
String result = "";
if (n <= 0xFFFF) {
result += fromCharCode(n);
} else if (n <= 0x10FFFF) {
n -= 0x10000;
result += fromCharCode(0xD800 | (n >> 10)) + fromCharCode(0xDC00 | (n & 0x3FF));
} else {
result += "dec2char error: Code point out of range: " + decToHex(n);
}
return result;
}
public static String decToHex(int n) {
return Integer.toHexString(n).toUpperCase();
}
public static String convertUTF8_toChar(String str) {
// converts to characters a sequence of space-separated hex numbers representing bytes in utf8
// str: string, the sequence to be converted
var outputString = "";
var counter = 0;
var n = 0;
// remove leading and trailing spaces
str = str.replaceAll("/^\\s+/", "");
str = str.replaceAll("/\\s+$/", "");
if (str.length() == 0) {
return "";
}
str = str.replaceAll("/\\s+/g", " ");
var listArray = str.split(" ");
for (var i = 0; i < listArray.length; i++) {
int b = parseInt(listArray[i], 16); // alert('b:'+dec2hex(b));
switch (counter) {
case 0:
if (0 <= b && b <= 0x7F) { // 0xxxxxxx
outputString += decToChar(b);
} else if (0xC0 <= b && b <= 0xDF) { // 110xxxxx
counter = 1;
n = b & 0x1F;
} else if (0xE0 <= b && b <= 0xEF) { // 1110xxxx
counter = 2;
n = b & 0xF;
} else if (0xF0 <= b && b <= 0xF7) { // 11110xxx
counter = 3;
n = b & 0x7;
} else {
outputString += "convertUTF82Char: error1 " + decToHex(b) + "! ";
}
break;
case 1:
if (b < 0x80 || b > 0xBF) {
outputString += "convertUTF82Char: error2 " + decToHex(b) + "! ";
}
counter--;
outputString += decToChar((n << 6) | (b - 0x80));
n = 0;
break;
case 2:
case 3:
if (b < 0x80 || b > 0xBF) {
outputString += "convertUTF82Char: error3 " + decToHex(b) + "! ";
}
n = (n << 6) | (b - 0x80);
counter--;
break;
}
}
return outputString.replaceAll("/ $/", "");
}
几乎是买一赠一的副本,但它实现了我的目标。
最佳答案
SMILING FACE WITH HORNS
字符 (😈) 被分配给 code point十进制 128,520 (1F608 hexadecimal ) 在 Unicode 中.
您可以选择如何用一系列 octets 来表示该数字。 。
在大多数文本编辑器中,您只需将单个字符 😈
粘贴到源代码中即可。当写入 UTF-8 文件时,编辑器将创建必要的八位字节系列。
将此字符写入文本文件或以其他方式序列化为八位字节流时,您可以选择使用 UTF-8 或 UTF-16。请参阅:
以下是一些试验。您可以使用 hex editor 检查生成的文件。查看八位字节。
此代码生成一个 UTF-8 编码的文件。我们找到四个八位位组,十六进制值 F0 9F 98 88,十进制值 240 159 152 136。
您可以在 Oracle Java Tutorial 中找到讨论的代码。
注意我们如何为文件指定编码,StandardCharsets.UTF_8
。
Path file = Paths.get( "/Users/basilbourque/devil_utf-8.txt" );
Charset charset = StandardCharsets.UTF_8;
String s = "😈";
try ( BufferedWriter writer = Files.newBufferedWriter( file , charset ) )
{
writer.write( s , 0 , s.length() );
}
catch ( IOException e )
{
e.printStackTrace();
}
此代码生成一个 UTF-16 编码的文件。我们找到 6 个八位位组,其中 4 个八位位组代表我们的单个字符,加上 2 个八位位组的前缀 BOM (FEFF)。我们的四个八位位组的十进制数是 216 061 222 008,十六进制数是 D8 3D DE 08。
与上面相同的代码,但我们切换了 Charset
至StandardCharsets.UTF_16
。
Path file = Paths.get( "/Users/basilbourque/devil_utf-16.txt" );
Charset charset = StandardCharsets.UTF_16;
String s = "😈";
try ( BufferedWriter writer = Files.newBufferedWriter( file , charset ) )
{
writer.write( s , 0 , s.length() );
}
catch ( IOException e )
{
e.printStackTrace();
}
要了解 Unicode 和编码的基础知识,请阅读帖子 The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) .
关于java - 在 Java 中显示 UTF-8 表情符号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62125628/
给定一个字符串,例如 s="##$$$#",我如何找到索引之前的“#”符号数等于“”数的索引$"符号在索引之后? 示例:如果 s="##$$$#",则输出将为 2。 解释:在索引 2 之前我们有 2
在本教程中,您将借助示例了解 JavaScript 符号。 JavaScript 符号 JavaScript ES6 引入了一种新的原始数据类型,称为 Symbol(符号)。符号是不可变的(不能更改)
在“函数编程的工艺”一书中,符号 '>.>' 将函数连接在一起,与 '.' 的方向相反。但是当我使用 ghci 实现它时,它显示了超出范围的错误 '>.>'。为什么?它是不再使用的旧符号吗? 最佳答案
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它,visit the help center 。 已关
我需要从向量中删除 \"。这是我的数据: data <- c("\"https://click.linksynergy.com/link?id=RUxZriH*PWc&offerid=323058.1
我在 Nginx 配置中使用正则表达式来捕获文件 URL,但如果文件 URL 包含 # 符号,正则表达式模式将不会捕获它。 这里是nginx的配置部分。 location ~ ^/p/(?[\w\-=
如何使 & 符号在此图表的第一组条形/列下正确显示: http://jsfiddle.net/VxbrK/2/ 应该是“Apples & Oranges”而不是“Apples & Oranges”。
**在verilog中是什么意思? 我为测试台提供了以下逻辑 localparam NUM_INPUT_BITS = 1; localparam NUM_OUTPUT_BITS
我有一个使用正则表达式来验证电子邮件地址的方法。 public String searchFormail(String searchWord) { Pattern pattern = Patt
我想将一个字符串拆分为数字部分和文本/符号部分我当前的代码不包含负数或小数,并且表现得很奇怪,在输出的末尾添加了一个空列表元素 import re mystring = 'AD%5(6ag 0.33-
我有一些代码需要从数组中选择一个随机字符串,但它一直返回单个字母或数字。如何解决这个问题? var name = ["Yayek", "Vozarut", "Gezex",
我刚开始使用 Python,我在考虑应该使用哪种表示法。我读过 PEP 8关于 Python 符号的指南,我同意那里的大多数内容,除了函数名称(我更喜欢混合大小写风格)。 在 C++ 中,我使用匈牙利
在用 C# 编写代码时,我错误地在 if 语句中的变量前添加了一个符号(而不是感叹号)。 bool b = false; if (@b) { } 我很惊讶它编译成功,没有任何错误。 我想知道:上面的代
本文实例为大家分享了特殊字符替换电话号码中某一部分的方法,ios利用-号替换电话号码中间四位,供大家参考,具体内容如下 1、效果图 2、代码 rootviewcontroll
当我使用“x”和“z”作为符号时,这段代码没有问题: from sympy import * x, z = symbols('x z') y = -6*x**2 + 2*x*z**0.5 + 50*x
我需要从文本中删除标点符号: data <- "Type the command AT&W enter. in order to save the new protocol on modem;"
我有几个数字是 numeric 类。下面的例子。 df = c(12974,12412,124124,124124,34543,4576547,32235) 现在我想在每个数字前添加 '$' 符号而不
我有一个 highcharts 图例,其中符号以不同的大小显示,因为它们在实际图表中的大小不同。不幸的是,当数据点的大小增加时,它们也会在图例中增加。无论数据点大小如何,我都希望图例符号保持相同的大小
我需要使用包含平均值+-SD的标题。到目前为止,我只能得到以下信息: "Mean +- SD or N (%)" [1] "Mean +- SD or N (%)" 如何直接使用“+-”符号?您知道一
使用 XSLT 和 XPath 1.0,我有一个要转义的字符串以用于 URL,例如: one word & another 因此,描述元素的 text() 应该进行 URL 转义。 我该怎么做
我是一名优秀的程序员,十分优秀!