- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我来自这篇文章Swift 4 JSON String with unknown UTF8 "�" character is not convertible to Data/ Dictionary但与此同时,我能够将问题隔离为 10 个字符的字符串。
简短介绍:一位用户的应用没有显示任何内容。用 TextWrangler 查看他的 6kb 纯文本数据,我发现了 2 个红色问号
我试图在问号周围剪切一些 base64 编码的数据 block ,并将它们转换为不起作用的数据。一旦我从 block 中删除红色问号中的位,它似乎又可以工作了。请看看我的以下 Playground 示例:
//those do NOT work
let toEndBracket = "ACAAKgBVAFMAQQAqACAnlgAg2DwAIgB9AF0A" // *USA* ' <"}]//
let toMidBracket = "ACAAKgBVAFMAQQAqACAnlgAg2DwAIgB9" // *USA* ' <"}//
let toCarrot = "ACAAKgBVAFMAQQAqACAnlgAg2DwA" // *USA* ' <//
let toSpace = "ACAAKgBVAFMAQQAqACAnlgAg" // *USA* ' //
//but this one WORKS
let toApostrophe = "ACAAKgBVAFMAQQAqACAn" // *USA* '//
//(basically the last one is without the space before the carrot, I've added the slashes after it to emphasize that)
//clear strings taken from https://www.base64decode.org/ using the UTF-8 setting WITHOUT "Live mode".
if let textData = Data(base64Encoded: toApostrophe) {
print("Data created") //works for all of them
print(textData)
if let decodedString = String(data: textData, encoding: .utf8) {
print("WORKED!!!") //only happens for the toApostrophe
print(decodedString)
} else {
print("DID NOT WORK")
}
}
所以基本上一包含lgAg
就失效了。用 U29t
之类的东西替换它确实可以使小字符串再次工作,但我不能在生产代码中这样做,因为我确信我的例子不是这个问题的唯一出现。我不在乎导致这种情况的原始字符/符号/表情符号会发生什么,如果有一种方法可以“忽略”它们,那将非常有帮助!
这是发生这种情况的另一个例子:
//OTHER SYMBOL WITH SAME BEHAVIOR
//not working
let secondFromSpace = "ACDYPAAiACwA" // <",//
//WORKING
let secondFromCarrot = "PAAiACwA" //<",//
这是其栖息地中的原始文本,一 strip 有表情符号的信使消息说“美国”,因此在我的示例文本中使用“美国”,我怀疑是表情符号导致它崩溃:
如果有人能告诉我如何“清理”base64 字符串以便它再次转换为数据,我将不胜感激。这也可能是由于某些表情符号的一些奇怪编码,但在大多数情况下,应用程序可以很好地接收和显示带有表情符号的内容。
我终于明白为什么会这样了。这不是我的问题的快速解决方案,但现在它至少有一定的意义。对于新内容的预览,我切断了字符串以匹配浏览器的视口(viewport)。这个特别不幸的用户在显示屏边框的边缘有美国国旗表情符号。我从来没有想过由多个字母组成的表情符号和 JavaScript 的 substring()
将它们斩首。看看图片,这解释了角色的来源等。
关于如何在 Swift 中避免/忽略/捕获它的答案,我仍然很感激,但对于遇到这个问题的每个可怜的灵魂,我希望你会偶然发现这个线程。
最佳答案
(其中一些是评论之外的,但试图将其整合并描述解决方案。)
首先,您的字符串不是 UTF-8。它们是 UTF-16 或格式错误的 UTF-16。有时 UTF-16 恰好可以解释为 UTF-8,但当它是时,字符串中会散布 NULL 字符。在您的“工作”示例中,它实际上并没有工作。
let toApostrophe = "ACAAKgBVAFMAQQAqACAn" // *USA* '//
if let textData = Data(base64Encoded: toApostrophe) {
if let decodedString = String(data: textData, encoding: .utf8) {
print(decodedString)
print(decodedString.count)
print(decodedString.map { $0.unicodeScalars.map { $0.value } } )
} else {
print("DID NOT DECODE UTF8")
}
} else {
print("DID NOT DECODE BASE64")
}
打印:
*USA* '
15
[[0], [32], [0], [42], [0], [85], [0], [83], [0], [65], [0], [42], [0], [32], [39]]
请注意,字符串的长度为 15 个字符,而不是您可能期望的 8 个字符。这是因为它在大多数字符之间包含一个额外的不可见 NULL (0)。
然而,toEndBracket
并不是合法的 UTF-8。这是它的字节:
[“00”、“20”、“00”、“2a”、“00”、“55”、“00”、“53”、“00”、“41”、“00”、“2a” ", "00", "20", "27", "96", "00", "20", "d8", "3c", "00", "22", "00", "7d", “00”、“5d”、“00”]
在到达 0xd8 之前,一切正常。它以位 110 开始,表示它是一个两字节序列的开始。但下一个字节是 0x3c,它不是多字节序列的有效第二个字节(它应该以 10 开头,但它以 00 开头)。所以我们不能将其解码为 UTF-8。即使使用 decodeCString(_:as:repairingInvalidCodeUnits)
也无法解码此字符串,因为它充满了嵌入的 NULL。您必须至少使用正确的编码对其进行解码。
但让我们这样做吧。解码为 UTF-16。至少这很接近,即使它是稍微无效的 UTF-16。
let toEndBracket16 = String(data: toEndBracketData, encoding: .utf16)
// " *USA* ➖ �"}]"
现在我们至少可以解决这个问题。不过,它是无效的 JSON。所以我们可以通过过滤来去除它:
let legalJSON = String(toEndBracket16.filter { $0 != "\u{FFFD}" })
// " *USA* ➖ "}]"
我真的不推荐这种方法。它非常脆弱,并且基于损坏的输入。固定输入。但在您尝试解析损坏的输入的世界中,这些就是工具。
关于由于包含 "incomplete"表情符号的字符串,Swift 4 base64 字符串到数据无法正常工作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52524382/
给定一个字符串,例如 s="##$$$#",我如何找到索引之前的“#”符号数等于“”数的索引$"符号在索引之后? 示例:如果 s="##$$$#",则输出将为 2。 解释:在索引 2 之前我们有 2
在本教程中,您将借助示例了解 JavaScript 符号。 JavaScript 符号 JavaScript ES6 引入了一种新的原始数据类型,称为 Symbol(符号)。符号是不可变的(不能更改)
在“函数编程的工艺”一书中,符号 '>.>' 将函数连接在一起,与 '.' 的方向相反。但是当我使用 ghci 实现它时,它显示了超出范围的错误 '>.>'。为什么?它是不再使用的旧符号吗? 最佳答案
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它,visit the help center 。 已关
我需要从向量中删除 \"。这是我的数据: data <- c("\"https://click.linksynergy.com/link?id=RUxZriH*PWc&offerid=323058.1
我在 Nginx 配置中使用正则表达式来捕获文件 URL,但如果文件 URL 包含 # 符号,正则表达式模式将不会捕获它。 这里是nginx的配置部分。 location ~ ^/p/(?[\w\-=
如何使 & 符号在此图表的第一组条形/列下正确显示: http://jsfiddle.net/VxbrK/2/ 应该是“Apples & Oranges”而不是“Apples & Oranges”。
**在verilog中是什么意思? 我为测试台提供了以下逻辑 localparam NUM_INPUT_BITS = 1; localparam NUM_OUTPUT_BITS
我有一个使用正则表达式来验证电子邮件地址的方法。 public String searchFormail(String searchWord) { Pattern pattern = Patt
我想将一个字符串拆分为数字部分和文本/符号部分我当前的代码不包含负数或小数,并且表现得很奇怪,在输出的末尾添加了一个空列表元素 import re mystring = 'AD%5(6ag 0.33-
我有一些代码需要从数组中选择一个随机字符串,但它一直返回单个字母或数字。如何解决这个问题? var name = ["Yayek", "Vozarut", "Gezex",
我刚开始使用 Python,我在考虑应该使用哪种表示法。我读过 PEP 8关于 Python 符号的指南,我同意那里的大多数内容,除了函数名称(我更喜欢混合大小写风格)。 在 C++ 中,我使用匈牙利
在用 C# 编写代码时,我错误地在 if 语句中的变量前添加了一个符号(而不是感叹号)。 bool b = false; if (@b) { } 我很惊讶它编译成功,没有任何错误。 我想知道:上面的代
本文实例为大家分享了特殊字符替换电话号码中某一部分的方法,ios利用-号替换电话号码中间四位,供大家参考,具体内容如下 1、效果图 2、代码 rootviewcontroll
当我使用“x”和“z”作为符号时,这段代码没有问题: from sympy import * x, z = symbols('x z') y = -6*x**2 + 2*x*z**0.5 + 50*x
我需要从文本中删除标点符号: data <- "Type the command AT&W enter. in order to save the new protocol on modem;"
我有几个数字是 numeric 类。下面的例子。 df = c(12974,12412,124124,124124,34543,4576547,32235) 现在我想在每个数字前添加 '$' 符号而不
我有一个 highcharts 图例,其中符号以不同的大小显示,因为它们在实际图表中的大小不同。不幸的是,当数据点的大小增加时,它们也会在图例中增加。无论数据点大小如何,我都希望图例符号保持相同的大小
我需要使用包含平均值+-SD的标题。到目前为止,我只能得到以下信息: "Mean +- SD or N (%)" [1] "Mean +- SD or N (%)" 如何直接使用“+-”符号?您知道一
使用 XSLT 和 XPath 1.0,我有一个要转义的字符串以用于 URL,例如: one word & another 因此,描述元素的 text() 应该进行 URL 转义。 我该怎么做
我是一名优秀的程序员,十分优秀!