作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
假设我有一个数据集,每行包含一个句子,该句子来自一个非常大的调查(德语和法语)中的一个开放式问题。大多数句子(答案)是合乎逻辑的;即有意义的单词组合。但是,也有一些粗心的受访者只是简单地填写了各种不合逻辑的字符串。
一个有用的第一步是识别所有不是单词或其他识别不合逻辑字符串的方法。是否存在可以促进这一点的软件包?如何解决这个问题?
例子:
df <- structure(list(sentence = c("Das ist ein deutscher Satz.", "Ein kürzerer Satz", "34t34 t444tt", "C'est une sentence francaise", ".-......", "---2r13 1r-2r2")), .Names = c("sentence"), row.names = c(NA,6L), class = "data.frame")
head(df)
sentence
1 Das ist ein deutscher Satz.
2 Ein kürzerer Satz
3 34t34 t444tt
4 C'est une sentence francaise
5 .-......
6 ---2r13 1r-2r2
最佳答案
您可以使用 a-z 和 A-Z 对所有字符的份额和单词数量来检测句子。
df$nonCharShare <- nchar(gsub("[[:alpha:] ]", "", df$sentence)) / nchar(df$sentence)
df$words <- lengths(strsplit(df$sentence, " ", TRUE))
df
# sentence nonCharShare words
#1 Das ist ein deutscher Satz. 0.03703704 5
#2 Ein kürzerer Satz 0.00000000 3
#3 34t34t444tt 0.63636364 1
#4 C'est une sentence francaise 0.03571429 4
#5 .-...... 1.00000000 1
#6 ---2r131r-2r2 0.76923077 1
关于r - 如何识别不合逻辑的字符串/句子,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65680273/
CSS: .banner:nth-of-type(1) {background-color:red;} .banner:nth-of-type(2) {background-color:blue;}
在处理 vector.size() aka size_type 时,我需要一些帮助来澄清这个奇怪的比较 vector rebuiltFaces; int rebuildIndex = 1; cout
我认为我在 Java 类 AccessToken 中的 IBM Social Business Toolkit SDK 的方法中发现了错误。有方法 isExpired(int Threshold) 问
我是一名优秀的程序员,十分优秀!