gpt4 book ai didi

R-无效的多字节字符串 1

转载 作者:行者123 更新时间:2023-12-02 03:11:43 27 4
gpt4 key购买 nike

我是 R 软件新手

现在,研究使用“tm”package”进行文本挖掘

我在将文本映射为小写时遇到问题

sms_raw<-read.csv(............)
sms_corpus<-Corpus(VectorSource(sms_raw$text))
sms_corpus<-Corpus(VectorSource(sms_raw$text))
tm_map(sms_corpus,content_transformer(tolower))
error:invalid multubytes string 1

我认为我的 csv 文件可能不是 utf-8,所以我恢复为 utf-8,但它不起作用。

我的操作系统是win8.1

谁能解决这个问题请告诉我。

最佳答案

我通过编码函数轻松解决了错误

在我的文件的名称为文本的列中包含多字节字符

所以我输入

sms_raw$text <- iconv(enc2utf8(sms_raw$text),sub="byte")

此命令将“文本”列(多字节)转换为 utf8 形式

关于R-无效的多字节字符串 1,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26751797/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com