- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在处理使用 twitteR 包的 CRAN 版本提取的 Twitter 数据时遇到了一些问题。特别是来自 tm 包的 tolower 转换。
我正在关注 this example
这是我目前正在做的:
#oauth handshake and so on work fine
google_8.10<- searchTwitter("#Google", n=1500, cainfo="cacert.pem")
google_8.10_text <- sapply(google_8.10, function(x) x$getText())
google_8.10_text_corpus <- Corpus(VectorSource(google_8.10_text))
google_8.10_text_corpus <- tm_map(google_8.10_text_corpus, tolower)
google_8.10_text_corpus <- tm_map(google_8.10_text_corpus, removePunctuation)
google_8.10_text_corpus <- tm_map(google_8.10_text_corpus, function(x)removeWords(x,stopwords()))
其他转换完成得很好(如果未运行 tolower)。然而,较低的转化率返回:
google_8.10_text_corpus <- tm_map(google_8.10_text_corpus, tolower)
Warnmeldung:
In parallel::mclapply(x, FUN, ...) :
all scheduled cores encountered errors in user code
我怀疑这可能是由其中一条推文中的某个字符引起的,但我如何才能找到问题所在?
编辑:事实上,某些字符似乎会导致这种情况,例如:
"#Google #TheInternship THE BEST MOVIE EVER @Jeennyy01 @dylanobrien I love this part \ud83d\ude1c http://t.co/iok5vm83cP"
此处“\ud83d\ude1c”部分导致错误。知道如何从推文中自动删除这些短语(这个是:http://www.charbase.com/1f61c-unicode-face-with-stuck-out-tongue-and-winking-eye)吗?
最佳答案
根据source tolower
会报错:
Support for "bytes" marked encoding
nzchar and nchar(, "bytes") are independent of the encoding.
nchar(, "char") nchar(, "width") give NA (if allowed) or error. substr substr<- work in bytes
abbreviate chartr make.names strtrim tolower toupper give error.
这是一个使用 invalid UTF code point 抛出错误的示例:
tolower("\udc80")
Error in tolower("<ed><U+00B2><U+0080>") :
invalid input 'í²€' in 'utf8towcs'
关于r - 使用 R 的 Twitter 挖矿 (twitteR + tm) : error using tolower conversion,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19248303/
我想禁用 def/while/class/etc 的 end 自动插入。在 Rubymine 7.0 中。 例如,如果我输入 def 并按 Enter 键,则会在新行下方自动添加 end: # Bef
rubyMine 在运行所有模型测试时出现“检测到 MiniTest 框架”错误。 我可以在常规命令行运行所有模型测试。例如rake 规范:模型 当我使用 rubyMine 时: 我可以运行一个模
在 RubyMine 中进行调试时,如何在断点暂停期间进入 Rails 控制台 session ? 最佳答案 据我所知,这是不可能的。我能弄清楚的最接近的是在调试器中评估上下文感知表达式:http:/
我是一名优秀的程序员,十分优秀!