gpt4 book ai didi

r - 在R中显示UTF-8编码的汉字

转载 作者:行者123 更新时间:2023-12-02 14:37:10 25 4
gpt4 key购买 nike

我尝试在 R 中打开包含(繁体)中文字符的 UTF-8 编码 .csv 文件。出于某种原因,R 有时将信息显示为中文字符,有时显示为 unicode 字符。

例如:

data <-read.csv("mydata.csv", encoding="UTF-8")

data

将产生unicode字符,而:

data <-read.csv("mydata.csv", encoding="UTF-8")

data[,1]

实际上会显示汉字。

如果我把它变成一个矩阵,它也会显示中文字符,但如果我尝试查看数据(命令View(data)或fix(data))它又是unicode的。

我向使用Mac的人征求了意见(我使用的是PC,Windows 7),其中一些人自始至终都有汉字,另一些则没有。我尝试将原始数据保存为表格,然后以这种方式将其读入 R - 结果相同。我尝试在 RStudio、Revolution R 和 RGui 中运行该脚本。我尝试调整语言环境(例如,调整为中文),但要么 R 不允许我更改它,要么结果是乱码而不是 unicode 字符。

我当前的区域设置是:

"LC_COLLATE=French_Switzerland.1252;LC_CTYPE=French_Switzerland.1252;LC_MONETARY=French_Switzerland.1252;LC_NUMERIC=C;LC_TIME=French_Switzerland.1252"

任何帮助让 R 一致显示中文字符将不胜感激......

最佳答案

不是错误,更多的是在构造 character 时对底层类型系统转换(factor 类型和 data.frame 类型)的误解。 .

您可以先从 data <-read.csv("mydata.csv", encoding="UTF-8", stringsAsFactors=FALSE) 开始这将使您的汉字成为character键入并打印出来,您应该会看到您所期望的内容。

@nograpes:类似x=c('中華民族');x; y <- data.frame(x, stringsAsFactors=FALSE)一切都应该没问题。

关于r - 在R中显示UTF-8编码的汉字,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10955582/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com