- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我的目标是确定是否给定 text
有一个 target
字符串,但我想允许拼写错误/小派生并提取“导致”匹配的子字符串(将其用于进一步的文本分析)。
示例:
target <- "target string"
text <- "the target strlng: Butter. this text i dont want to extract."
target strlng
作为输出,因为它非常接近目标(levenshtein 距离为 1)。接下来我想使用
target strlng
提取词
Butter
(这部分我已经涵盖了,我只是添加它以获得详细的规范)。
agrep
这似乎非常接近。我可以有输出,我的目标被找到了,但不是
substring
这“导致”了比赛。
value = TRUE
但它似乎适用于阵列级别。我认为我不可能切换到数组类型,因为我不能用空格分割(我的目标字符串可能有空格,...)。
agrep(
pattern = target,
x = text,
value = TRUE
)
最佳答案
使用 aregexec
, 类似于 regexpr/regmatches
的使用(或 gregexpr
)用于精确匹配提取。
m <- aregexec('string', 'text strlng wrong')
regmatches('text strlng wrong', m)
#[[1]]
#[1] "strlng"
aregexec
的参数。和
regmatches
.请注意,在后一种情况下,函数参数
invert
出现在点参数之后
...
所以它必须是一个命名参数。
aregextract <- function(pattern, text, ..., invert = FALSE){
m <- aregexec(pattern, text, ...)
regmatches(text, m, invert = invert)
}
aregextract(target, text)
#[[1]]
#[1] "target strlng"
aregextract(target, text, invert = TRUE)
#[[1]]
#[1] "the "
#[2] ": Butter. this text i dont want to extract."
关于r - 从 agrep 中提取子串匹配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58914919/
是否有内置方法来量化 agrep 的结果?功能?例如。在 agrep("test", c("tesr", "teqr", "toar"), max = 2, v=T) [1] "tesr" "teqr
尽管我将 max.distance 限制为零,为什么 agrep 会找到匹配项? adist 确实正确地告诉我,我需要两次插入... > agrep("ab", "abcd", max = list(
我在 R 中使用“agrep”函数,它返回匹配向量。我想要一个类似于 agrep 的函数,它只返回最佳匹配,或者如果存在平局则返回最佳匹配。目前,我正在对结果向量的每个元素使用“cba”包中的“sdi
我有一个模式向量,需要对它们使用 agrep。问题是 agrep 似乎一次只采用一种模式。 patt 1 and only the first element will be used lapply
我的目标是确定是否给定 text有一个 target字符串,但我想允许拼写错误/小派生并提取“导致”匹配的子字符串(将其用于进一步的文本分析)。 示例: target <- "target strin
在?agrep(带有模糊匹配的grep)中,它提到我可以设置参数fixed=FALSE来解释我的模式作为正则表达式。 但是,我无法让它工作! agrep('(asdf|fdsa)', 'asdf',
我正在尝试做的是使用 agrep 获取文件中最匹配的词和它的错误数。现在我只能使用这个脚本来获取单词: array=(bla1 bla2 bla3) for eachWord in "${array[
我是一个 R 新手,一直在尝试使用 agrep 进行一些实验。 R 中的函数。我有一个庞大的客户数据库(150 万行),我确信其中有很多重复项。尽管使用 table() 来获取重复确切名称的频率,但并
我需要一些帮助来理解这些函数的参数。我从帮助中拿了例子。 ## To see the transformation counts for the Levenshtein distance: drop(
我正在尝试从 data.frame 转换至 data.table ,并且需要一些关于我正在尝试在单个列上执行的逻辑索引的建议。这是我有的一张表: places <- data.table(name=c
使用 R,我尝试匹配按年份和城市构建的数据集中的人名。由于一些拼写错误,无法精确匹配,因此我尝试使用 agrep() 来模糊匹配名称。 数据集的示例 block 的结构如下: df <- data.f
我有一个字符串: string <- "I do not like green eggs and ham!" 和一个图案 pattern <- "(egs|ham)" 我想知道多少次pattern匹配
我的Java程序需要启动agrep.exe,其参数包含大矩阵中所有元素对的参数,并获取两个字符串的匹配错误数。我写了一段代码,但是运行速度很慢。我可以加快这部分代码的速度吗?或者,也许你可以建议我一些
我正在尝试使用 agrep 找出两个字符串名称之间模糊字符串匹配的最佳精度。 但是,由于字符串数量巨大,我需要选择一个精度“max.distance”以将其应用于我尝试匹配的所有字符串。不可能为我尝试
编辑:这个错误是在 32 位版本的 R 中发现的,已在 R 版本 2.9.2 中得到修复。 这是@leoniedu 今天发给我的推特,我没有他的答案,所以我想我会把它贴在这里。 我已经阅读了 agre
我是一名优秀的程序员,十分优秀!