gpt4 book ai didi

r - 寻找推特和短信风格的停用词

转载 作者:行者123 更新时间:2023-12-01 12:49:31 24 4
gpt4 key购买 nike

我使用 R 来挖掘推文,我得到了推文中使用频率最高的词。然而最常见的词是这样的:

 [1] "cant"     "dont"     "girl"     "gonna"    "lol"      "love"    
[7] "que" "thats" "watching" "wish" "youre"

我正在寻找文本中的趋势、名称和事件。我想知道是否有办法从语料库中删除这种短信风格的词(例如 gonna、wanna、...)?他们有停用词吗?任何帮助将不胜感激。

最佳答案

文本挖掘包维护它自己的停用词列表,并提供有用的工具来管理和总结此类文本。

假设您的推文存储在向量中。

library(tm)
words <- vector_of_strings
corpus <- Corpus(VectorSource(words))
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, function(x) tolower(x))
corpus <- tm_map(corpus, function(x) removeWords(x,
stopwords()))

您可以将最后一行与您自己的停用词列表一起使用():

stoppers <- c(stopwords(), "gonna", "wanna", "lol", ... ) 

不幸的是,您必须生成自己的“短信”或“互联网消息”停用词列表。

但是,您可以通过借鉴 NetLingo ( http://vps.netlingo.com/acronyms.php ) 来作弊

library(XML)
theurl <- "http://vps.netlingo.com/acronyms.php"
h <- htmlParse(theurl)
h <- getNodeSet(h,"//ul/li/span//a")
stoppers <- sapply(h,xmlValue)

关于r - 寻找推特和短信风格的停用词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13558703/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com