作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个包含文档标记的字符向量列表。
list(doc1 = c("I", "like", "apples"), doc2 = c("You", "like", "apples", "too"))
我想将此向量转换为 quanteda
tokens
(或
dfm
)对象以利用某些 quantedas 功能。
tokens(paste0(c("I", "like", "apples"), collapse = " "), what = "fastestword")
这使:
Tokens consisting of 1 document.
text1 :
[1] "I" "like" "apples"
但这感觉就像一个黑客,也不可靠,因为我的一些 token 对象中有空格。有没有办法更顺利地传输这些数据结构?
最佳答案
您可以从以下位置构造 token 对象:
as.tokens(mylist)
将字符元素列表转换为标记对象。 .不同的是,与
tokens()
,您可以访问所有选项,例如
remove_punct
.与
as.tokens()
,转换是直接的,没有选项,所以如果你不需要选项会快一点。
lis <- list(
doc1 = c("I", "like", "apples"),
doc2 = c("One two", "99", "three", ".")
)
library("quanteda")
## Package version: 3.0.9000
## Unicode version: 13.0
## ICU version: 69.1
## Parallel computing: 8 of 8 threads used.
## See https://quanteda.io for tutorials and examples.
tokens(lis)
## Tokens consisting of 2 documents.
## doc1 :
## [1] "I" "like" "apples"
##
## doc2 :
## [1] "One two" "99" "three" "."
tokens(lis, remove_punct = TRUE, remove_numbers = TRUE)
## Tokens consisting of 2 documents.
## doc1 :
## [1] "I" "like" "apples"
##
## doc2 :
## [1] "One two" "three"
强制替代,没有选项:
as.tokens(lis)
## Tokens consisting of 2 documents.
## doc1 :
## [1] "I" "like" "apples"
##
## doc2 :
## [1] "One two" "99" "three" "."
关于r - 如何将字符向量列表转换为 quanteda 标记对象?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68433502/
我是一名优秀的程序员,十分优秀!