gpt4 book ai didi

r - 在 R 中查找 "near duplicates"字符串

转载 作者:行者123 更新时间:2023-12-04 10:37:14 25 4
gpt4 key购买 nike

我正在使用 R 构建情绪分析工具,但我遇到了一些重复问题。数据的主要来源是推特,看起来很多人通过在每条推文末尾添加一些随机文本来绕过推特自己的垃圾邮件过滤器。例如

Click xxxxx to buy the amazing xxxxx for FREE ugjh

我收到了大量在末尾带有不同随机字符串的完全相同的推文。它们要么来自同一用户,要么来自不同用户。

是否有类似 duplicatedunique 的函数返回 2 个字符串的接近程度,如果它们超过某个 % 则忽略它们?

我知道这样做最终会删除那些说完全相同的人的真实推文,比如

I love xxxx !

但我会在未来处理它。

任何正确方向的提示都将不胜感激!

最佳答案

我在上面提到了 agrep。这是您所解释内容的示例。通过改变 max.distance 我们可以调整被踢的东西:

comp <- "Click xxxxx to buy the amazing xxxxx for FREE ugjh"
w <- "I love xxxx !"
x <- "Click xxxxx to purchase the awesome xxxxx for FREE bmf"

agrep(comp, c(x, w), max.distance =.4, value = TRUE)
agrep(comp, c(x, w), max.distance =.9, value = TRUE)

关于r - 在 R 中查找 "near duplicates"字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13714893/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com