gpt4 book ai didi

r - 将 等 utf8 代码点字符串转换为 utf8

转载 作者:行者123 更新时间:2023-12-04 12:35:46 25 4
gpt4 key购买 nike

我有一个文本文件,其中包含某种 Unicode 字符(尖括号中的 Unicode 代码点)的回退转换。所以它包含例如foo<U+017E>bar应该是“foošbar”。 R 中是否有一种简单的方法可以将整个文件转换为 UTF8 并转换这些字符?不幸的是,我在 Windows 上找不到受支持的 UTF-8 语言环境。

最佳答案

也许:

library(stringi)
library(magrittr)

"foo<U+0161>bar and cra<U+017E>y" %>%
stri_replace_all_regex("<U\\+([[:alnum:]]+)>", "\\\\u$1") %>%
stri_unescape_unicode() %>%
stri_enc_toutf8()
## [1] "foošbar and cražy"

可能有效(我不需要在 macOS 上进行最后一次转换,但您可以在 Windows 上进行)。

关于r - 将 <U+0161> 等 utf8 代码点字符串转换为 utf8,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39847816/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com