regex - 取消转义字符串中的 unicode-6ren

regex - 取消转义字符串中的 unicode

转载作者：行者123 更新时间：2023-12-04 07:37:44

25

4

有一个长期存在的bug在 RJSONIO用于解析包含 unicode 转义序列的 json 字符串。似乎该错误需要在 libjson 中修复这可能不会很快发生，所以我正在寻找在 R 中创建一个解决方法，它可以转义 \uxxxx序列，然后将它们提供给 json 解析器。

一些上下文:json 数据总是 unicode，使用 utf-8默认情况下，所以一般不需要转义。但由于历史原因，json 确实支持转义的 unicode。因此json数据

{"x" : "Zürich"}

和

{"x" : "Z\u00FCrich"}

是等效的，并且在解析时应该产生完全相同的输出。但无论出于何种原因，后者在 RJSONIO 中不起作用.附加 confusion是因为 R 本身也支持转义的 unicode。所以当我们输入 "Z\u00FCrich"在 R 控制台中，它会自动正确转换为 "Zürich" .要获得实际的 json 字符串，我们需要转义反斜杠本身，它是 json 中 unicode 转义序列的第一个字符:

test <- '{"x" : "Z\\u00FCrich"}'
cat(test)

所以我的问题是:在 R 中给定一个大的 json 字符串，我怎样才能对所有转义的 unicode 序列进行转义？ IE。如何替换所有出现的 \uxxxx通过相应的unicode字符？再次， \uxxxx这里代表一个实际的 6 个字符的字符串，以反斜杠开头。所以一个 unescape函数应满足:

#Escaped string
escaped <- "Z\\u00FCrich"

#Unescape unicode
unescape(escaped) == "Zürich"

#This is the same thing
unescape(escaped) == "Z\u00FCrich"

可能使事情复杂化的一件事是，如果反斜杠本身在 json 中用另一个反斜杠转义，则为不是 Unicode 转义序列的一部分。例如。 unescape还应满足:

#Watch out for escaped backslashes
unescape("Z\\\\u00FCrich") == "Z\\\\u00FCrich"
unescape("Z\\\\\\u00FCrich") == "Z\\\\ürich"

最佳答案

在玩了更多之后，我认为我能做的最好的事情就是搜索 \uxxxx使用正则表达式解析模式，然后使用 R 解析器解析这些模式:

unescape_unicode <- function(x){
  #single string only
  stopifnot(is.character(x) && length(x) == 1)

  #find matches
  m <- gregexpr("(\\\\)+u[0-9a-z]{4}", x, ignore.case = TRUE)

  if(m[[1]][1] > -1){
    #parse matches
    p <- vapply(regmatches(x, m)[[1]], function(txt){
      gsub("\\", "\\\\", parse(text=paste0('"', txt, '"'))[[1]], fixed = TRUE, useBytes = TRUE)
    }, character(1), USE.NAMES = FALSE)

    #substitute parsed into original
    regmatches(x, m) <- list(p)
  }

  x
}

这似乎适用于所有情况，我还没有发现任何奇怪的副作用

关于regex - 取消转义字符串中的 unicode，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24952174/

25

4

0

文章推荐： r - 对列执行分组以计算 R 中另一列的出现次数

文章推荐： matlab - 在 Matlab 上通过高斯系数对图像进行卷积

文章推荐： ruby-on-rails - 如何使用 rSpec 测试 Rails 片段缓存？

linux - (取消/取消)在 bash 中压缩一个字符串？
是否可以使用标准输入/标准输出在 bash 中压缩/解压缩字符串？我试过了，但显然不支持它？ hey=$(echo "hello world" | gzip -cf) echo $hey # ret
javascript - 取消/取消 IE7 输入搜索上的 JavaScript 操作
我的任务是让一个企业网站适用于 IE7，它必须“足够好”，因此我禁用了任何导致问题的花哨/非必要功能。其中之一是正在使用的搜索栏，需要进行哪些搜索，我猜测幕后某个地方有某种 JavaScript 用
取消 getchar()
我有一个执行大量处理的小程序。您可以通过按回车键打印进度。我实现它的方法是在主线程中完成处理，同时我有一个 pthread 不断循环 getchar() 以等待输入键。问题是当我完成处理时。发生这
android - CoroutineScope 取消
我完全理解 suspendCoroutine 与 suspendCancellableCoroutine 在我的示例中的工作方式。但我想知道为什么 println("I finished") (第 1
qt - QFileDialog 取消
我是 QT 的新手。目前在我的项目中我实现了 QFileDialog . 在我的用例中:每当用户选择一个文本文件时，它都会执行 functionA .但是，我发现如果在文件对话框中单击取消，funct
excel - 取消 GetSaveAsFilename
我有代码，仅在用户选择“另存为”时运行。为此并获取我正在使用的文件的新名称 Application.GetSaveAsFilename功能。我遇到的问题是类型不匹配，同时检查用户是否在他没有这样做时
iphone - 取消 UILocalNotification
我的 UILocalNotification 有问题。我正在用我的方法安排通知。 - (void) sendNewNoteLocalReminder:(NSDate *)date alrt:(NS
javascript - 取消 XMLHttpRequest？
祝你有美好的一天我有一个网站，其中有很多“工具提示”。这些工具提示是在将鼠标悬停在文本的特定部分上时创建的。工具提示是一个 div block ，它显示在网站上所有其他内容的顶部，并且当光标从文本移
Java TimerTask 取消
我遇到以下问题。每隔 2 秒，程序就会进入 if 语句。在这个 if 语句中，我想要一个计时器，它会在 15 秒后给我一条消息。计时器应延迟 1 秒运行。但是当我用计时器“等待”时，if 语句将再执行
java - FutureTask 取消()
基本上我有以下代码片段， (let [task (FutureTask. fn) thr (Thread. task)] (.start thr) ;;wait for signa
iphone - 取消 ASIHTTPRequest
取消正在进行的 ASIHttpRequest 请求的正确位置在哪里？这就是我取消的方式，但是当我时它继续崩溃在不让请求完成的情况下从一个 View Controller 转移到另一个 View Co
c# - BackgroundWorker 取消
我在我的 winforms 应用程序中使用 BackgroundWorker 来执行另一个类中发生的长时间运行的任务(执行数据库操作)。由于所有工作都是在另一个类中完成的，因此取消并不那么简单。我在另
android - 取消/关闭图标上的通知
我正在使用 OneSignal 向我的用户显示通知。通知工作正常，但我注意到，如果我在通知栏中“滑动”取消通知，则通知将永远保留，这是一张显示应用程序图标上的通知的图像，我想在应用程序已打开: 我看到
android - 取消 AsyncTask
正在运行的 AsyncTask 的 .cancel(boolean) 方法如何工作？这是文档: Attempts to cancel execution of this task. This atte
ios - (取消)激活约束如何在内部工作？
我注意到，当我激活约束时，我会立即在该行代码处收到一条警告，指出不能同时满足约束。我假设布局是在“UI 更新周期”之类的稍后时间点计算的，而不是每次约束都被(取消)激活。因此，在(取消)激活约束的代
ios - 取消 NSThread
这是我创建线程的方式: readFromWebThread = [[NSThread alloc] initWithTarget:self selector:@selector(loadThread:
ios - 取消 UILocalNotification
我目前正在尝试取消与我的数据模型中的对象关联的特定 UILocalNotifications。为此，每个数据对象都有一个唯一标识符，即 NSUUID。创建 UILocalNotification:
javascript确认(取消)返回false时仍然提交表单
当我提交并单击“确定”时，它会继续，但当我按“取消”时，它仍然会提交。我尝试使用此代码，但提交和取消按钮仍然执行相同的操作。 model.saveForm = function() { var
javascript - 取消 setTimeout()
我有一个警报弹出窗口，当发生特定操作时会出现该弹出窗口。 5 秒后，使用 setTimeout() 隐藏警报弹出窗口。我遇到的问题是，如果我多次触发弹出窗口，有时后续的弹出窗口会出现但立即消失。我相
javascript - 取消/停止超时功能
我有一些 javascipt (jQuery)，其中单击按钮时会淡入 #myDiv，然后使用超时函数在 5 秒后再次淡出。它工作正常，但如果用户在超时内的 fadeOut 函数运行之前再次单击该按钮，

首页

博学

6Ren·AI

商城

regex - 取消转义字符串中的 unicode