r - 使用 R 从文本中提取重叠的类似年份的部分-6ren

r - 使用 R 从文本中提取重叠的类似年份的部分

转载作者：行者123 更新时间：2023-12-04 09:34:43

26

4

我正在尝试使用 R 从具有不同模式的文本中提取所有类似年份的短语。
我想捕捉以下所有模式:[Nothing OR non-digit][Year-like looking part][Nothing OR non-digit]例如:"1987-1998x2002"应该给 "1987-", "-1998x", "x2002"但是我的代码无法捕获 -1985x:

try <- "1987-1985x2002"
regmatches(try, gregexpr("((^|\\D)1(6|7|8|9)\\d\\d($|\\D))|((^|\\D)20(0|1|2)\\d($|\\D))", try))

[[1]]
[1] "1987-" "x2002"

我也不明白为什么匹配短语依赖于匹配较早的短语。例如，一旦我删除了上述示例的第一个字符，就会得到完全不同的结果。

try <- "987-1985x2002"
regmatches(try, gregexpr("((^|\\D)1(6|7|8|9)\\d\\d($|\\D))|((^|\\D)20(0|1|2)\\d($|\\D))", try))
[[1]]
[1] "-1985x"

我想要它捕获

"-1985x", "x2002"

就好像 gregexpr 函数在达到匹配后删除剩余搜索的整个短语一样。

最佳答案

您的模式包含 (^|\D)开始时的模式和 ($|\D)每个匹配选项末尾的模式。这些是 capturing groups消耗文本，即将匹配的文本添加到整体匹配并推进正则表达式索引。自 1987-是第一场比赛，-已消耗且不可用于下一场比赛，因此下一场比赛发生是 x2002 .
您想在内部使用单个捕获组的正向前瞻:

try <- "1987-1985x2002"
res <- stringr::str_match_all(try, "(?=((?:\\D|^)(?:1[6-9]\\d{2}|20[0-2]\\d)(?:\\D|$)))")
lapply(res, function(x) x[,-1])

输出:

[1] "1987-"  "-1985x" "x2002"

见 R demo online
正则表达式详情

(?= - 一个积极的展望:

( - 开始捕获组:

(?:\D|^) - 非数字字符或字符串开头

(?: - 非捕获组的开始:

1[6-9]\d{2} - 1 , 一个从 6 到 9 的数字，然后是任意两位数字

| - 或

20[0-2]\d - 20 , 从 0 到 2 的数字，然后是任意一位数字

) - 非捕获组结束

(?:\D|$) - 非数字字符或字符串结尾

) - 捕获组 #1 结束

) - 正向前瞻结束。

关于r - 使用 R 从文本中提取重叠的类似年份的部分，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62643402/

26

4

0

文章推荐： mysql - 在 mySQL 中按固定详细级别比较日期

文章推荐： apache-spark - Spark DataFrame 从子查询添加列

文章推荐： sql - 从 Oracle 迁移到 PostgreSQL 时 ORDER sibling BY 和 rownum

文章推荐： python-3.x - noLoop 是否停止执行绘制？

typescript - A 部分部分 io-ts
我在使用 io-ts 时遇到一些问题。我发现它确实缺乏文档，我取得的大部分进展都是通过 GitHub issues 取得的。不，我不明白 HKT，所以没有帮助。基本上，我在其他地方创建一个类型，ty
java - 匹配完整文件正则表达式中的 A 部分，但不匹配 B 部分
我必须创建一个正则表达式来搜索整个文件，以找到与 Java XML 解析器的第一部分(但不是第二部分)的匹配项。这将用于防止某些 XXE 攻击。不幸的是，它确实必须是单个正则表达式，并且它确实需要搜索
c# - 部分/部分中的 asp.net mvs 部分？
我有一些简单的 Shared/_Header.cshtml 文件中的内容。 My Shared/_Layout.cshtml 通过调用插入该代码 @Html.Partial("_Header") 目前
java - Selenium 只执行循环的 if != null 部分，不运行循环的 "else if null "部分
我有一个 if-else 语句，其中: 条件 1:ID 匹配并且自动填充某些字段。然后 if 语句只填充其余字段条件 2:ID 不匹配，所有字段均为空白。 ELSE 语句将它们全部填充当我使条件
javascript - 无法在 JSFIDDLE 中使用滚动魔法(第 1 部分，共 2 部分)
我正在开发一个单页滚动网站。我正在尝试实现 ScrollMagic 并固定第一部分，以便网站的其余部分滚动到固定部分的顶部。我尝试创建一个 jsfiddle 来显示问题，但我似乎无法让 jsfiddl
javascript - 既然有

首页

博学

6Ren·AI

商城

r - 使用 R 从文本中提取重叠的类似年份的部分