gpt4 book ai didi

xml - 将带有越南字符的数据导入 R

转载 作者:行者123 更新时间:2023-12-05 07:52:01 26 4
gpt4 key购买 nike

请有人建议将带有越南字符的数据导入 R 数据帧的最佳方法,以便正确描述数据。我需要导入的数据类型包括以下列的较长版本:

Student_name

PHẠM THANH

PHẠM VĂN

NGUYỄN TUẤN

NGUYỄN VĂN

VŨ NGỌC

我尝试了很多选项,包括将数据保存为 Unicode.txt 并使用指定的 encoding = UTF-8 导入到 R。

使用 read.csvread.table,我收到错误消息

In read.table("Stu.txt", header = TRUE, encoding = "UTF-8") : line 1 appears to contain embedded nulls

保存为 MS-Excel 文件并使用 read.xlsx(包 xlsx)导入,我可以正常读取数据,没有指定编码我得到奇怪的输出,如图:

 Student_name

1 法米清

2 PHẠM VĂN

3 NGUYỄN TUẤN

4 NGUYỄN VĂN

5 NGUYỄN VĂN

6 VŨ NGỌC

使用 read.xlsxencoding="UTF-8",我得到了 UTF-8 翻译,但没有十六进制代码,所以输出有小于和括起来的名字大于号 PH <'U+1EA0'>M THANH 等,不带引号。

我通过 RStudio 运行 R,版本 0.99.467,Windows 7 操作系统。

谢谢。

最佳答案

我使用了 stringi 包中的 stri_trans_general 函数:

data <- read.table("Stu.txt", header = TRUE, encoding = "UTF-8")  %>% 
mutate(Student_name = stri_trans_general(Student_name, "Latin-ASCII"))

关于xml - 将带有越南字符的数据导入 R,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34241434/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com