r - 使用 R 的 Twitter 挖矿 (twitteR + tm) : error using tolower conversion-6ren

r - 使用 R 的 Twitter 挖矿 (twitteR + tm) : error using tolower conversion

转载作者：行者123 更新时间：2023-12-05 05:27:31

36

4

我在处理使用 twitteR 包的 CRAN 版本提取的 Twitter 数据时遇到了一些问题。特别是来自 tm 包的 tolower 转换。

我正在关注 this example

这是我目前正在做的:

#oauth handshake and so on work fine 
google_8.10<- searchTwitter("#Google", n=1500, cainfo="cacert.pem")
google_8.10_text <- sapply(google_8.10, function(x) x$getText())
google_8.10_text_corpus <- Corpus(VectorSource(google_8.10_text))
google_8.10_text_corpus <- tm_map(google_8.10_text_corpus, tolower) 
google_8.10_text_corpus <- tm_map(google_8.10_text_corpus, removePunctuation)
google_8.10_text_corpus <- tm_map(google_8.10_text_corpus,            function(x)removeWords(x,stopwords()))

其他转换完成得很好(如果未运行 tolower)。然而，较低的转化率返回:

google_8.10_text_corpus <- tm_map(google_8.10_text_corpus, tolower)
    Warnmeldung:
In parallel::mclapply(x, FUN, ...) :
  all scheduled cores encountered errors in user code

我怀疑这可能是由其中一条推文中的某个字符引起的，但我如何才能找到问题所在？

编辑:事实上，某些字符似乎会导致这种情况，例如:

"#Google #TheInternship THE BEST MOVIE EVER @Jeennyy01 @dylanobrien    I love this part \ud83d\ude1c http://t.co/iok5vm83cP"

此处“\ud83d\ude1c”部分导致错误。知道如何从推文中自动删除这些短语(这个是:http://www.charbase.com/1f61c-unicode-face-with-stuck-out-tongue-and-winking-eye)吗？

最佳答案

根据source tolower 会报错:

Support for "bytes" marked encoding

nzchar and nchar(, "bytes") are independent of the encoding.

nchar(, "char") nchar(, "width") give NA (if allowed) or error. substr substr<- work in bytes

abbreviate chartr make.names strtrim tolower toupper give error.

这是一个使用 invalid UTF code point 抛出错误的示例:

tolower("\udc80")
Error in tolower("<ed><U+00B2><U+0080>") : 
  invalid input 'í²€' in 'utf8towcs'

关于r - 使用 R 的 Twitter 挖矿 (twitteR + tm) : error using tolower conversion，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19248303/

36

4

0

文章推荐： regex - .htaccess mod_rewrite 中的百分号

文章推荐： python-3.x - 在 PySide.QTextEdit 中突出显示文本

文章推荐： php - Insert_id 在下一个准备好的语句中直接使用时为 null

ide - ruby 矿 7.0 : Disable automatic insertion of "end"
我想禁用 def/while/class/etc 的 end 自动插入。在 Rubymine 7.0 中。例如，如果我输入 def 并按 Enter 键，则会在新行下方自动添加 end: # Bef
ruby-on-rails - ruby 矿 'Unable to attach test reporter to test framework'
rubyMine 在运行所有模型测试时出现“检测到 MiniTest 框架”错误。我可以在常规命令行运行所有模型测试。例如rake 规范:模型当我使用 rubyMine 时: 我可以运行一个模
ruby-on-rails - ruby 矿 4.5 : How to drop into a context-aware Rails Console during debugging?
在 RubyMine 中进行调试时，如何在断点暂停期间进入 Rails 控制台 session ？最佳答案据我所知，这是不可能的。我能弄清楚的最接近的是在调试器中评估上下文感知表达式:http:/

首页

博学

6Ren·AI

商城

r - 使用 R 的 Twitter 挖矿 (twitteR + tm) : error using tolower conversion

Support for "bytes" marked encoding