gpt4 book ai didi

r - r tidytext 中的标记化,以 & 符号保留

转载 作者:行者123 更新时间:2023-12-04 10:10:28 25 4
gpt4 key购买 nike

我目前正在使用 unnest_tokens()来自 tidytext 的函数包裹。它完全按照我的需要工作,但是,它从文本中删除了与号 (&)。我希望它不要那样做,但保持其他一切不变。

例如:

library(tidyverse)
library(tidytext)

d <- tibble(txt = "Let's go to the Q&A about B&B, it's great!")
d %>% unnest_tokens(word, txt, token="words")

目前返回
# A tibble: 11 x 1
word
<chr>
1 let's
2 go
3 to
4 the
5 q
6 a
7 about
8 b
9 b
10 it's
11 great

但我希望它回来
# A tibble: 9 x 1
word
<chr>
1 let's
2 go
3 to
4 the
5 q&a
6 about
7 b&b
8 it's
9 great

有没有办法将选项发送到 unnest_tokens()这样做,还是发送它当前使用的正则表达式并手动调整它以不包含&符号?

最佳答案

我们可以使用 tokenregex

library(tidytext)
library(dplyr)
d %>%
unnest_tokens(word, txt, token="regex", pattern = "[\\s!,.]")
# A tibble: 9 x 1
# word
# <chr>
#1 let's
#2 go
#3 to
#4 the
#5 q&a
#6 about
#7 b&b
#8 it's
#9 great

关于r - r tidytext 中的标记化,以 & 符号保留,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61352018/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com