作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我坚持创建正确的正则表达式模式,该模式将拆分我的数据框列的内容,而不会让我失去任何元素。
我必须使用 separate()
来自 tidyr
的函数包,因为这是更长的处理管道的一部分。由于我不想丢失字符串中的任何元素,我正在开发一个前瞻/后视表达式。
需要拆分的字符串可以遵循以下模式之一:
library(tidyr)
myDat = data.frame(drugName = c("ab-1234", 'ab-1234', 'ab-1234',
'placebo', 'anotherdrug', 'andanother',
'xyz123', 'xyz123', 'placebo', 'another',
'omega-3', 'omega-3', 'another', 'placebo'))
drugColNames = paste0("X", 1:3)
# This pattern doesn't split strings that only consist of number and letters, e.g. "xyz123" is not split after the letters.
pat = '(?=-[0-9+])|(?<=[a-z+]-)'
# This pattern splits at all the right places, but the last group (the numbers), is separated and not kept together.
# pat = '(?=-[0-9+]|[0-9+])|(?<=[a-z+]-)'
splitDat = separate(myDat, drugName,
into = drugColNames,
sep = pat)
拆分的输出应该是:
"ab-1234" --> "ab" "-" "123"
"xyz123" --> "xyz" "123"
"omega-3" --> "omega" "-" "3"
非常感谢您在这方面提供帮助。 :)
最佳答案
使用会更容易extract
在这里,因为我们没有固定的分隔符,这也将避免使用正则表达式查找。
tidyr::extract(myDat, drugName, drugColNames, '([a-z]+)(-)?(\\d+)?', remove = FALSE)
# drugName X1 X2 X3
#1 ab-1234 ab - 1234
#2 ab-1234 ab - 1234
#3 ab-1234 ab - 1234
#4 placebo placebo
#5 anotherdrug anotherdrug
#6 andanother andanother
#7 xyz123 xyz 123
#8 xyz123 xyz 123
#9 placebo placebo
#10 another another
#11 omega-3 omega - 3
#12 omega-3 omega - 3
#13 another another
#14 placebo placebo
关于r - R中的环视正则表达式模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64872872/
我想在基于 DFA 的正则表达式匹配器中实现“词边界”匹配。谁能告诉我这是怎么做到的? 为了提供一些背景知识,我目前正在使用“dk.brics.automaton”库,但它不支持断言(例如 \b,字边
我是一名优秀的程序员,十分优秀!