gpt4 book ai didi

r - read.csv 中的多字节字符串无效

转载 作者:行者123 更新时间:2023-12-02 03:48:39 25 4
gpt4 key购买 nike

我正在尝试导入日语的 csv。这段代码:

url <- 'http://www.mof.go.jp/international_policy/reference/itn_transactions_in_securities/week.csv'
x <- read.csv(url, header=FALSE, stringsAsFactors=FALSE)

返回以下错误:

Error in type.convert(data[[i]], as.is = as.is[i], dec = dec, na.strings = character(0L)) : 
invalid multibyte string at '<91>ΊO<8b>y<82>ёΓ<e0><8f>،<94><94><84><94><83><8c>_<96>񓙂̏󋵁@(<8f>T<8e><9f><81>E<8e>w<92><e8><95>񍐋@<8a>փx<81>[<83>X<81>j'

我尝试更改编码(Encoding(url) <- 'UTF-8' 以及 latin1)并尝试删除 read.csv 参数,但在每种情况下都收到相同的“无效多字节字符串”消息。是否应该使用不同的编码,或者是否存在其他问题?

最佳答案

Encoding 设置字符串的编码。它没有设置字符串表示的文件的编码,这正是您想要的。

在尝试“UTF-8”之后,这对我有用:

x <- read.csv(url, header=FALSE, stringsAsFactors=FALSE, fileEncoding="latin1")

您可能想跳过前 16 行,并单独读取标题。不管怎样,仍然有大量的清理工作要做。

x <- read.csv(url, header=FALSE, stringsAsFactors=FALSE,
fileEncoding="latin1", skip=16)
# get started with the clean-up
x[,1] <- gsub("\u0081|`", "", x[,1]) # get rid of odd characters
x[,-1] <- as.data.frame(lapply(x[,-1], # convert to numbers
function(d) type.convert(gsub(d, pattern=",", replace=""))))

关于r - read.csv 中的多字节字符串无效,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14363085/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com