- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用 tidytext
包裹在 R
做n-gram分析。
由于我分析推文,我想保留 @ 和 # 以捕获提及、转发和主题标签。然而,unnest_tokens
功能自动删除所有标点符号并将文本转换为小写。
我找到了 unnest_tokens
可以选择使用 token='regex'
使用正则表达式,所以我可以自定义它清理文本的方式。但是,它仅适用于 unigram 分析,不适用于 n-gram,因为我需要定义 token='ngrams'
做n-gram分析。
有什么办法可以防止unnest_tokens
在 n-gram 分析中将文本转换为小写?
最佳答案
tokenize_words
的参数可在 unnest_tokens
内获得函数调用。所以你可以使用 strip_punct = FALSE
直接作为 unnest_tokens
的参数.
例子:
txt <- data.frame(text = "Arguments for `tokenize_words` are available within the `unnest_tokens` function call. So you can use `strip_punct = FALSE` directly as an argument for `unnest_tokens`. ", stringsAsFactors = F)
unnest_tokens(txt, palabras, "text", strip_punct =FALSE)
palabras
1 arguments
1.1 for
1.2 `
1.3 tokenize_words
1.4 `
1.5 are
1.6 available
1.7 within
1.8 the
1.9 `
1.10 unnest_tokens
1.11 `
1.12 function
1.13 call
1.14 .
1.15 so
#And some more, but you get the point.
lowercase = FALSE
和
strip_numeric = TRUE
更改默认的相反行为。
关于r - 在 R 中的 tidytext 中使用 unnest_tokens() 保留标点符号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44510086/
我正在尝试使用 tokenizers 包将一列拆分为 token ,但我一直收到错误:找不到函数“unnest_tokens”。我正在使用 R 3.5.3,并且已经安装并重新安装了 dplyr、tid
我正在从 加载 5 个核心数据集之一 http://jmcauley.ucsd.edu/data/amazon/ 使用 library(sparklyr) library(dplyr) config
我有一个在代码中运行的 unnest_tokens 函数,但是一旦我将它放入一个函数中,我就无法运行它。我不明白为什么将它放在函数中时会发生这种情况。 数据: id words 1
我正在处理一列格式为字符串的 url 向量,每个 url 以逗号分隔: column_with_urls ["url.a, url.b, url.c"] ["url.d, url.e, url.f"]
我正在尝试将 unnest_tokens 与西类牙语文本一起使用。它可以很好地处理 unigrams,但会破坏 bigrams 的特殊字符。 代码在 Linux 上运行良好。我添加了一些关于语言环境的
我正在处理一列格式为字符串的 url 向量,每个 url 以逗号分隔: column_with_urls ["url.a, url.b, url.c"] ["url.d, url.e, url.f"]
我正在使用出色的 tidytext 包来标记多个段落中的句子。例如,我想采取以下段落: "I am perfectly convinced by it that Mr. Darcy has no de
R 非常新,并且已经开始使用 tidytext 包。 我正在尝试使用参数输入 unnest_tokens功能,所以我可以做多列分析。所以而不是这个 library(janeaustenr) libra
跟进 this question ,我想执行与 aggregate (或下面 MWE 中的 data.table 等效)相反的任务,以便我获得 df1再次从 df2 开始。 这里的任务是从 df2 重
我正在使用 tidytext包裹在 R做n-gram分析。 由于我分析推文,我想保留 @ 和 # 以捕获提及、转发和主题标签。然而,unnest_tokens功能自动删除所有标点符号并将文本转换为小写
我是一名优秀的程序员,十分优秀!