R如何将<U+9600><U+524D>之类的UTF-8代码转换回汉字-6ren

R如何将之类的UTF-8代码转换回汉字

转载作者：行者123 更新时间：2023-12-04 11:25:23

当我使用 read.csv使用选项 encoding = "UTF-8" 读取包含中文字符的文件，我得到了这些神秘的代码。

通过一些比较，我意识到它们可以一对一匹配汉字，但是我如何将它们转换回R中的汉字。

例如，<U+9600>和 <U+524D>分别是"阀"和 "前" .

最佳答案

您需要更改语言环境设置以获取中文字符，例如:

x <- "阀"
print(x) will result in ##[1] "<U+9600>"

将您的区域设置保存在一个对象中作为备份，以便我们可以像之前一样撤消区域设置

oldloc <- Sys.getlocale("LC_CTYPE")

通过将“ en_US.UTF-8 ”作为第二个参数来更改语言环境:

Sys.setlocale("LC_CTYPE", "en_US.UTF-8")
print(x) ###The result is now [1] "阀"

您也可以尝试语言环境 zh_CN.UTF-‌8 ，它也对我有用。如果你搞砸了任何事情，那么你可以使用下面的方法来进入之前的状态:

Sys.setlocate("LC_CYTPE",oldloc)

我刚刚在查看 OP 正在 Windows 机器上运行的评论时意识到，上述命令在我的 Mac sierra 上运行良好，但在 Windows 7 机器上产生如下警告:

Warning message:
In Sys.setlocale("LC_CTYPE", "en_US.UTF-8") :
  OS reports request to set locale to "en_US.UTF-8" cannot be honored

但是，为了在 Windows 上解决上述问题，我使用了 stringi 的函数 stri_trans_general如下所示，这解决了问题并打印了所需的汉字
stringi::stri_trans_general(x, "zh")
输出 :

> stringi::stri_trans_general(x, "zh")
[1] "阀"

您可以访问 here查看不同地区的语言环境。

关于R如何将<U+9600><U+524D>之类的UTF-8代码转换回汉字，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44095025/

文章推荐： pandas - 将列添加到 Pandas DataFrame 不在位

文章推荐： Eclipse:所有主菜单都是空的

文章推荐： azure - 如何使用Azure云服务(Web角色)部署App_Data文件

文章推荐： Lua 字节码到 Lua 人类 "readable"

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

R如何将之类的UTF-8代码转换回汉字