gpt4 book ai didi

r - 如何识别不合逻辑的字符串/句子

转载 作者:行者123 更新时间:2023-12-04 08:16:26 26 4
gpt4 key购买 nike

假设我有一个数据集,每行包含一个句子,该句子来自一个非常大的调查(德语和法语)中的一个开放式问题。大多数句子(答案)是合乎逻辑的;即有意义的单词组合。但是,也有一些粗心的受访者只是简单地填写了各种不合逻辑的字符串。
一个有用的第一步是识别所有不是单词或其他识别不合逻辑字符串的方法。是否存在可以促进这一点的软件包?如何解决这个问题?
例子:

df <- structure(list(sentence = c("Das ist ein deutscher Satz.", "Ein kürzerer Satz", "34t34 t444tt", "C'est une sentence francaise", ".-......", "---2r13 1r-2r2")), .Names = c("sentence"), row.names = c(NA,6L), class = "data.frame")

head(df)
sentence
1 Das ist ein deutscher Satz.
2 Ein kürzerer Satz
3 34t34 t444tt
4 C'est une sentence francaise
5 .-......
6 ---2r13 1r-2r2

最佳答案

您可以使用 a-z 和 A-Z 对所有字符的份额和单词数量来检测句子。

df$nonCharShare <- nchar(gsub("[[:alpha:] ]", "", df$sentence)) / nchar(df$sentence)
df$words <- lengths(strsplit(df$sentence, " ", TRUE))
df
# sentence nonCharShare words
#1 Das ist ein deutscher Satz. 0.03703704 5
#2 Ein kürzerer Satz 0.00000000 3
#3 34t34t444tt 0.63636364 1
#4 C'est une sentence francaise 0.03571429 4
#5 .-...... 1.00000000 1
#6 ---2r131r-2r2 0.76923077 1

关于r - 如何识别不合逻辑的字符串/句子,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65680273/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com