gpt4 book ai didi

r - 在 R 中的 tidytext 中使用 unnest_tokens() 保留标点符号

转载 作者:行者123 更新时间:2023-12-04 11:02:24 24 4
gpt4 key购买 nike

我正在使用 tidytext包裹在 R做n-gram分析。

由于我分析推文,我想保留 @ 和 # 以捕获提及、转发和主题标签。然而,unnest_tokens功能自动删除所有标点符号并将文本转换为小写。

我找到了 unnest_tokens可以选择使用 token='regex' 使用正则表达式,所以我可以自定义它清理文本的方式。但是,它仅适用于 unigram 分析,不适用于 n-gram,因为我需要定义 token='ngrams'做n-gram分析。

有什么办法可以防止unnest_tokens在 n-gram 分析中将文本转换为小写?

最佳答案

tokenize_words 的参数可在 unnest_tokens 内获得函数调用。所以你可以使用 strip_punct = FALSE直接作为 unnest_tokens 的参数.

例子:

txt <- data.frame(text = "Arguments for `tokenize_words` are available within the `unnest_tokens` function call. So you can use `strip_punct = FALSE` directly as an argument for `unnest_tokens`. ", stringsAsFactors = F)
unnest_tokens(txt, palabras, "text", strip_punct =FALSE)

palabras
1 arguments
1.1 for
1.2 `
1.3 tokenize_words
1.4 `
1.5 are
1.6 available
1.7 within
1.8 the
1.9 `
1.10 unnest_tokens
1.11 `
1.12 function
1.13 call
1.14 .
1.15 so
#And some more, but you get the point.

也可用: lowercase = FALSEstrip_numeric = TRUE更改默认的相反行为。

关于r - 在 R 中的 tidytext 中使用 unnest_tokens() 保留标点符号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44510086/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com