gpt4 book ai didi

r - 使用dplyr删除停用词

转载 作者:行者123 更新时间:2023-12-04 10:00:07 24 4
gpt4 key购买 nike

读取http://tidytextmining.com/tidytext.html状态:




通常在文本分析中,我们希望删除停用词;停用词
是对分析没有用的词,通常非常极端
英文中的常用词,例如“ the”,“ of”,“ to”等。我们
可以使用以下命令删除停用词(保留在整洁文本数据集stop_words中)
一个anti_join()。

数据(stop_words)

tidy_books <-tidy_books%>%anti_join(停用词)




我正在尝试修改以从字符串中删除停用词:

data(stop_words)
str_v <- paste(c("this is a test"))
str_v <- str_v %>%
anti_join(stop_words)


但返回错误:

Error in UseMethod("anti_join") : 
no applicable method for 'anti_join' applied to an object of class "character"


是否需要将str_v转换为包含方法 anti_join的类?

最佳答案

str_v是向量。需要使用tibble将其转换为data.frame或as.tibble,然后使用unnest_tokens将“值”列拆分为单词,同时将其重命名为“单词”,以便在执行 通用列匹配并通过“单词”联接

library(tidytext)
library(tibble)
library(dplyr)
str_v %>%
as.tibble %>%
unnest_tokens(word, value) %>%
anti_join(stop_words)
# A tibble: 1 x 1
# word
# <chr>
#1 test

关于r - 使用dplyr删除停用词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47535508/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com