gpt4 book ai didi

r - 使用 R 的 Twitter 挖矿 (twitteR + tm) : error using tolower conversion

转载 作者:行者123 更新时间:2023-12-05 05:27:31 36 4
gpt4 key购买 nike

我在处理使用 twitteR 包的 CRAN 版本提取的 Twitter 数据时遇到了一些问题。特别是来自 tm 包的 tolower 转换。

我正在关注 this example

这是我目前正在做的:

#oauth handshake and so on work fine 
google_8.10<- searchTwitter("#Google", n=1500, cainfo="cacert.pem")
google_8.10_text <- sapply(google_8.10, function(x) x$getText())
google_8.10_text_corpus <- Corpus(VectorSource(google_8.10_text))
google_8.10_text_corpus <- tm_map(google_8.10_text_corpus, tolower)
google_8.10_text_corpus <- tm_map(google_8.10_text_corpus, removePunctuation)
google_8.10_text_corpus <- tm_map(google_8.10_text_corpus, function(x)removeWords(x,stopwords()))

其他转换完成得很好(如果未运行 tolower)。然而,较低的转化率返回:

google_8.10_text_corpus <- tm_map(google_8.10_text_corpus, tolower)
Warnmeldung:
In parallel::mclapply(x, FUN, ...) :
all scheduled cores encountered errors in user code

我怀疑这可能是由其中一条推文中的某个字符引起的,但我如何才能找到问题所在?

编辑:事实上,某些字符似乎会导致这种情况,例如:

"#Google #TheInternship THE BEST MOVIE EVER @Jeennyy01 @dylanobrien    I love this part \ud83d\ude1c http://t.co/iok5vm83cP"

此处“\ud83d\ude1c”部分导致错误。知道如何从推文中自动删除这些短语(这个是:http://www.charbase.com/1f61c-unicode-face-with-stuck-out-tongue-and-winking-eye)吗?

最佳答案

根据source tolower 会报错:

Support for "bytes" marked encoding

nzchar and nchar(, "bytes") are independent of the encoding.

nchar(, "char") nchar(, "width") give NA (if allowed) or error. substr substr<- work in bytes

abbreviate chartr make.names strtrim tolower toupper give error.

这是一个使用 invalid UTF code point 抛出错误的示例:

tolower("\udc80")
Error in tolower("<ed><U+00B2><U+0080>") :
invalid input 'í²€' in 'utf8towcs'

关于r - 使用 R 的 Twitter 挖矿 (twitteR + tm) : error using tolower conversion,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19248303/

36 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com