gpt4 book ai didi

正则表达式不捕获写成单词的数字

转载 作者:行者123 更新时间:2023-12-02 04:22:59 24 4
gpt4 key购买 nike

我正在看英文版和法文版的《雾都孤儿》。我发现这个网站 ( https://cran.r-project.org/web/packages/tidytext/vignettes/tidytext.html ) 提供代码来应用每行文本的章节编号。当我将其应用于英文文本时,效果很好:

library(gutenbergr)
library(dplyr)
library(tidytext)
library(stringr)
twistEN <- gutenberg_download(730)
twistEN <- twistEN[118:nrow(twistEN),]
chaptersEN <- twistEN %>%
mutate(line = row_number(), chapter = cumsum(str_detect(text, regex("^chapter [\\divxlc]", ignore_case = TRUE)))) %>%
ungroup()

然后当我查看 chaptersEN 时,我可以看到它已在每一行上适本地应用了章节编号。我遇到麻烦的地方是法语文本。这是我的代码:

twistFR <- gutenberg_download(16023)
twistFR <- twistFR[123:nrow(twistFR),]
twistFR$text <- iconv(twistFR$text, "latin1", "UTF-8")
chaptersFR <- twistFR %>%
mutate(line = row_number(), chapter = cumsum(str_detect(text, regex("^chaptitre [\\divxlc]", ignore_case = TRUE)))) %>%
ungroup()

这里的问题是章节没有命名为第 1 章和第 2 章,它们被命名为 Chapitre Premier,Chapitre Deuxieme。我相信正则表达式是通过查看单词章节后面的数字来找到章节编号的(如果我错了请纠正我),所以当该数字作为单词写入时它不知道该怎么做。关于如何应用章节号的任何想法?

最佳答案

在这种情况下,匹配以大写“CHAPITRE”开头的行就足够了。

chaptersFR <- twistFR %>%
mutate(line = row_number(), chapter = cumsum(str_detect(text, regex("^CHAPITRE")))) %>%
ungroup()

chaptersFR %>%
filter(grepl("^chapitre", text, ignore.case = TRUE)) %>%
head(5)

# A tibble: 5 x 4
gutenberg_id text line chapter
<int> <chr> <int> <int>
1 16023 CHAPITRE PREMIER. 1 1
2 16023 CHAPITRE II 124 2
3 16023 CHAPITRE III 604 3
4 16023 CHAPITRE IV. 1006 4
5 16023 CHAPITRE V. 1333 5

chaptersFR %>%
filter(grepl("^chapitre", text, ignore.case = TRUE)) %>%
tail(5)

# A tibble: 5 x 4
gutenberg_id text line chapter
<int> <chr> <int> <int>
1 16023 CHAPITRE L. 18443 50
2 16023 CHAPITRE LI. 18973 51
3 16023 chapitre, Olivier se trouvait, à trois heures de l'après-midi, 18979 51
4 16023 CHAPITRE LII 19580 52
5 16023 CHAPITRE LIII. 19989 53

关于正则表达式不捕获写成单词的数字,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58068952/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com