r - r tidytext 中的标记化，以 & 符号保留-6ren

r - r tidytext 中的标记化，以 & 符号保留

转载作者：行者123 更新时间：2023-12-04 10:10:28

25

4

我目前正在使用 unnest_tokens()来自 tidytext 的函数包裹。它完全按照我的需要工作，但是，它从文本中删除了与号 (&)。我希望它不要那样做，但保持其他一切不变。

例如:

library(tidyverse)
library(tidytext)

d <- tibble(txt = "Let's go to the Q&A about B&B, it's great!")
d %>% unnest_tokens(word, txt, token="words")

目前返回

# A tibble: 11 x 1
   word 
   <chr>
 1 let's
 2 go   
 3 to   
 4 the  
 5 q    
 6 a    
 7 about
 8 b    
 9 b    
10 it's 
11 great

但我希望它回来

# A tibble: 9 x 1
  word 
  <chr>
1 let's
2 go   
3 to   
4 the  
5 q&a       
6 about
7 b&b
8 it's
9 great

有没有办法将选项发送到 unnest_tokens()这样做，还是发送它当前使用的正则表达式并手动调整它以不包含＆符号？

最佳答案

我们可以使用 token如 regex

library(tidytext)
library(dplyr)
d %>% 
   unnest_tokens(word, txt, token="regex", pattern = "[\\s!,.]")
# A tibble: 9 x 1
#  word 
#  <chr>
#1 let's
#2 go   
#3 to   
#4 the  
#5 q&a  
#6 about
#7 b&b  
#8 it's 
#9 great

关于r - r tidytext 中的标记化，以 & 符号保留，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61352018/

25

4

0

文章推荐： python-3.x - 如何在列表中拆分字符串？

文章推荐： asp.net - CultureInfo.CurrentCulture 从哪里读取文化

文章推荐： wordpress - 如何将用户的IP重定向到网站IP？

使用 tidytext 删除停用词
使用 tidytext，我有这段代码: data(stop_words) tidy_documents % anti_join(stop_words) 我希望它使用包中内置的停用词将名为
r - tidytext 从文件夹中读取文件
我正在尝试将一个 pdf 文件文件夹读入 R 中的数据帧。我可以使用 pdftools 读取单个 pdf 文件。图书馆和 pdf_text(filepath) . 理想情况下，我可以获取一系列 pdf
r - TidyText 聚类
我想使用 R 和 tidytext 对相似的单词进行聚类包裹。我已经创建了我的 token ，现在想将其转换为矩阵以对其进行聚类。我想尝试一些 token 技术，看看哪种技术提供了最紧凑的集群。我
r - tidytext——如何做共性和对比词云
让我从 Introduction to tidytext @ CRAN 中的以下完全工作的代码开始 library(janeaustenr) library(dplyr) library(string
使用 tidytext 删除包含停用词的 ngram
更新:感谢您的投入。我重写了这个问题并添加了一个更好的例子来突出我的第一个例子中没有涵盖的隐含要求。问题我要找一个将军tidy删除包含停用词的 ngram 的解决方案。简而言之，ngram 是由空
r - tidytext::unnest_tokens 是否适用于西类牙字符？
我正在尝试将 unnest_tokens 与西类牙语文本一起使用。它可以很好地处理 unigrams，但会破坏 bigrams 的特殊字符。代码在 Linux 上运行良好。我添加了一些关于语言环境的
r - 西类牙语的 tidytext R - 还有其他选择吗？
我正在从 twitter 进行情感分析，但我的推文是西类牙语的，所以我不能使用 tidytext 对单词进行分类。有谁知道是否有类似的西类牙语套餐？最佳答案我在非英语文本挖掘中遇到了同样的问题。我
R Tidytext 和 unnest_tokens 错误
R 非常新，并且已经开始使用 tidytext 包。我正在尝试使用参数输入 unnest_tokens功能，所以我可以做多列分析。所以而不是这个 library(janeaustenr) libra
R tidytext stop_words 没有从 gutenbergr 下载中一致地过滤
这是一个奇怪的谜题。我从 gutenbergr 下载了 2 篇文章 - 爱丽丝梦游仙境和尤利西斯。停用词从 Alice 中消失，但它们仍在 Ulysses 中。即使将 anti_join 替换为过滤器
r - r tidytext 中的标记化，以 & 符号保留
我目前正在使用 unnest_tokens()来自 tidytext 的函数包裹。它完全按照我的需要工作，但是，它从文本中删除了与号 (&)。我希望它不要那样做，但保持其他一切不变。例如: libr
R:与使用 tidytext::unnest_tokens 聚合相反。多变量和大写
跟进 this question ，我想执行与 aggregate (或下面 MWE 中的 data.table 等效)相反的任务，以便我获得 df1再次从 df2 开始。这里的任务是从 df2 重
r - 在 R 中的 tidytext 中使用 unnest_tokens() 保留标点符号
我正在使用 tidytext包裹在 R做n-gram分析。由于我分析推文，我想保留 @ 和 # 以捕获提及、转发和主题标签。然而，unnest_tokens功能自动删除所有标点符号并将文本转换为小写
r - 使用 tidytext 和 broom 但没有找到 LDA_VEM 的 tidier
tidytext 书有主题模型的 tidier 示例: library(tidyverse) library(tidytext) library(topicmodels) library(broom)
r - tidytext、Quanteda 和 tm 返回不同的 tf-idf 分数
我正在尝试研究 tf-idf 加权语料库(我希望 tf 是按文档划分的比例，而不是简单的计数)。我希望所有经典文本挖掘库都会返回相同的值，但我得到了不同的值。我的代码中是否存在错误(例如，我是否需要转

首页

博学

6Ren·AI

商城

r - r tidytext 中的标记化，以 & 符号保留