作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我尝试使用R,jiebaR和语料库为中文语音生成词云并获取词频,但无法制作语料库。这是我的代码:
library(jiebaR)
library(stringr)
library(corpus)
cutter <- worker()
v36 <- readLines('v36.txt', encoding = 'UTF-8')
seg_x <- function(x) {str_c(cutter[x], collapse = '')}
x.out <- sapply(v36, seg_x, USE.NAMES = FALSE)
v36.seg <- x.out
v36.seg
library(quanteda)
corpus <- corpus(v36.seg) #Error begins here.
summary(corpus, showmeta = TRUE, 1)
texts(corpus)[1]
tokens(corpus, what = 'fasterword')[1]
tokens <- tokens(v36.seg, what = 'fasterword')
dfm <- dfm(tokens)
dfm
Error in corpus.default(v36.seg) :
corpus() only works on character, corpus, Corpus, data.frame, kwic objects.
最佳答案
鉴于您在评论中的文本示例,我将它们放在一个文本文件中。接下来按照 Ken 的说明,您将看到该文本在 quanteda 中非常可用。从那里你可以做你需要的所有 NLP。请查看 Chinese example在 quanteda 引用页面上。
免责声明:我似乎无法将您评论中的中文示例文本粘贴到此答案中,因为系统认为我在放入垃圾邮件:-(
library(quanteda)
library(readtext)
v36 <- readtext::readtext("v36.txt", encoding = "UTF8")
my_dfm <- v36 %>% corpus() %>%
tokens(what = "word") %>%
dfm()
# show frequency to check if words are available.
dplyr::as_tibble(textstat_frequency(my_dfm))
# A tibble: 79 x 5
feature frequency rank docfreq group
<chr> <dbl> <int> <dbl> <chr>
1 , 6 1 1 all
2 政府 6 1 1 all
3 。 5 3 1 all
4 在 3 4 1 all
5 的 3 4 1 all
6 安排 3 4 1 all
7 發言人 2 7 1 all
8 ( 2 7 1 all
9 一月 2 7 1 all
10 ) 2 7 1 all
# ... with 69 more rows
关于r - txt : corpus() only works on character, 语料库、语料库、data.frame、kwic对象读取中文出错,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59943477/
我有一些文本包含包含数字的短语,后跟一些符号。我想提取它们,例如,数字后跟百分比。使用 quanteda 包中的 kwic 函数似乎适用于数字作为正则表达式(例如 "\\d{1,}")。尽管如此,我没
我有医生写的文本,我希望能够突出显示上下文中的特定单词(我在他们的文本中搜索的单词之前的 5 个单词和之后的 5 个单词)。假设我想搜索“自杀”这个词。然后我将使用 quanteda 包中的 kwic
阅读了 XQuery 文档和 eXist-db 文档后,我想不通。 如果将结果放在标签中,则使用 KWIC 进行全文搜索将不起作用。 说明 XML 文件 blablabla blab
我是一名优秀的程序员,十分优秀!