gpt4 book ai didi

r - 如何使用 quanteda::tokens_select() 删除单字符和双字符标记

转载 作者:行者123 更新时间:2023-12-02 03:21:41 24 4
gpt4 key购买 nike

我正在尝试删除单字符和双字符标记。

这是一个例子:

toks <- tokens(c("This is a sentence. This is a second sentence."), remove_punct = TRUE)

toks <- tokens_select(toks, min_nchar=1L, max_nchar=2L, selection = "remove")

toks

结果:

tokens from 1 document. text1 :

[1] "is" "a" "is" "a"

我希望得到不符合条件的代币,而不是符合条件的代币。

最佳答案

library(quanteda)

toks <- tokens(c("This is a sentence. This is a second sentence."), remove_punct = TRUE)
tokens_select(toks, min_nchar=3L)

关于r - 如何使用 quanteda::tokens_select() 删除单字符和双字符标记,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54608528/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com