gpt4 book ai didi

r - 如何在R中读取未知编码的csv数据

转载 作者:行者123 更新时间:2023-12-04 09:40:30 26 4
gpt4 key购买 nike

我有一个 .csv数据,我可以从网页上查看它,但是当我将其读入 R 时,部分数据无法显示。数据可在此处获得 home.ustc.edu.cn/~lanrr/data.csv

mydata = read.csv("http://home.ustc.edu.cn/~lanrr/data.csv", header = T)
View(mydata) # show something like this:
# 9:39:37 665 600160 �޻��ɷ� ���� ���� 8.050 100 805.00 ��ȯ �ɽ�
��ȯ���� E004017669 665
2 9:39:38 697 930 �������� ���� ���� 4.360 283 1233.88
���� �ɽ� ����Ʒ���� 680001369 697

数据中包含一些中文单词,但是我不需要,如果我需要更改编码或做其他事情,有没有人遇到过这个问题?
mydata = read.csv("http://home.ustc.edu.cn/~lanrr/data.csv", 
encoding = "UTF-8", header = T, stringsAsFactors = F)
View(mydata)
# 9:39:37 665 600160 <U+00BE><U+07BB><U+00AF><U+00B9><U+0277><dd> <c2><f4>
<U+00B3><f6> <c2><f2><c2><f4> 8.050 100 805.00 <c8><da><U+022F>
<U+00B3><U+027D><U+00BB> <c8><da><U+022F><c2><f4><U+00B3><f6> E004017669 665
2 9:39:38 697 930 <d6><d0><U+0078><c9><fa><U+00BB><U+00AF> <c2><f4>
<U+00B3><f6> <c2><f2><c2><f4> 4.360 283 1233.88 <d0><c5><d3><c3>
<U+00B3><U+027D><U+00BB> <U+00B5><U+00A3><U+00B1><U+00A3><U+01B7><c2><f4><U+00B3>
<f6> 680001369 697

sessionInfo()
# R version 2.15.2 (2012-10-26)
Platform: x86_64-redhat-linux-gnu (64-bit)

locale:
[1] LC_CTYPE=en_US.UTF-8 LC_NUMERIC=C LC_TIME=en_US.UTF-8
LC_COLLATE=en_US.UTF-8
[5] LC_MONETARY=en_US.UTF-8 LC_MESSAGES=en_US.UTF-8 LC_PAPER=C
LC_NAME=C
[9] LC_ADDRESS=C LC_TELEPHONE=C LC_MEASUREMENT=en_US.UTF-8
LC_IDENTIFICATION=C

attached base packages:
[1] compiler stats graphics grDevices utils datasets methods base

other attached packages:
[1] data.table_1.8.8 TTR_0.22-0 xts_0.9-3 zoo_1.7-9
timeDate_2160.97 Matrix_1.0-9 lattice_0.20-10

loaded via a namespace (and not attached):
[1] grid_2.15.2 tools_2.15.2

我最后是这样做的:
Sys.setlocale("LC_COLLATE", "Chinese")
Sys.setlocale("LC_CTYPE", "Chinese")
Sys.setlocale("LC_MONETARY", "Chinese")
Sys.setlocale("LC_TIME", "Chinese")
Sys.setlocale("LC_MESSAGES", "Chinese")
Sys.setlocale("LC_MEASUREMENT", "Chinese")

最佳答案

首先,该 csv 文件以 GBK 而非 UTF-8 编码,因此代码应为:

mydata <- read.csv("http://home.ustc.edu.cn/~lanrr/data.csv", 
encoding = "GBK",
header = TRUE,
stringsAsFactors = FALSE)
其次,如果你的env不是中文(简体),你应该set_locale比如(我的例子os是windows 7)
Sys.setlocale(category = "LC_ALL", locale = "Chinese (Simplified)")
然后显示表格:
fix(mydata)

关于r - 如何在R中读取未知编码的csv数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16681812/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com