r - 如何从词云中删除词？-6ren

r - 如何从词云中删除词？

转载作者：行者123 更新时间：2023-12-04 10:13:59

25

4

我正在使用 R 中的 wordcloud 包以及“Word Cloud in R”的帮助创建一个 wordcloud。

我可以很容易地做到这一点，但我想从这个词云中删除单词。我在一个文件中有单词(实际上是一个 excel 文件，但我可以更改它)，我想排除所有这些单词，其中有几百个。有什么建议吗？

require(XML)
require(tm)
require(wordcloud)
require(RColorBrewer)
ap.corpus=Corpus(DataframeSource(data.frame(as.character(data.merged2[,6]))))
ap.corpus=tm_map(ap.corpus, removePunctuation)
ap.corpus=tm_map(ap.corpus, tolower)
ap.corpus=tm_map(ap.corpus, function(x) removeWords(x, stopwords("english")))
ap.tdm=TermDocumentMatrix(ap.corpus)
ap.m=as.matrix(ap.tdm)
ap.v=sort(rowSums(ap.m),decreasing=TRUE)
ap.d=data.frame(word = names(ap.v),freq=ap.v)
table(ap.d$freq)

最佳答案

@Tyler Rinker 已经给出了答案，只需添加另一行removeWords()，但这里有更多细节。

假设您的 excel 文件名为 nuts.xls，并且有一列这样的单词

stopwords
peanut
cashew
walnut
almond
macadamia

在 R 中你可以这样进行

     library(gdata) # package with xls import function
     library(tm)
     # now load the excel file with the custom stoplist, note a few of the arguments here 
     # to clean the data by removing spaces that excel seems to insert and prevent it from 
     # importing the characters as factors. You can use any args from read.table(), which is
     # handy
     nuts<-read.xls("nuts.xls", header=TRUE, stringsAsFactor=FALSE, strip.white=TRUE)

     # now make some words to build a corpus to test for a two-step stopword removal process...
     words1<- c("peanut, cashew, walnut, macadamia, apple, pear, orange, lime, mandarin, and, or, but")
     words2<- c("peanut, cashew, walnut, almond, apple, pear, orange, lime, mandarin, if, then, on")
     words3<- c("peanut, walnut, almond, macadamia, apple, pear, orange, lime, mandarin, it, as, an")
     words.all<-data.frame(rbind(words1,words2,words3))
     words.corpus<-Corpus(DataframeSource((words.all)))

     # now remove the standard list of stopwords, like you've already worked out
     words.corpus.nostopwords <- tm_map(words.corpus, removeWords, stopwords("english"))
     # now remove the second set of stopwords, this time your custom set from the excel file, 
     # note that it has to be a reference to a character vector containing the custom stopwords
     words.corpus.nostopwords <- tm_map(words.corpus.nostopwords, removeWords, nuts$stopwords)

     # have a look to see if it worked
     inspect(words.corpus.nostopwords)
     A corpus with 3 text documents

     The metadata consists of 2 tag-value pairs and a data frame
     Available tags are:
          create_date creator 
     Available variables in the data frame are:
          MetaID 

     $words1
        , , , , apple, pear, orange, lime, mandarin, , , 

     $words2
        , , , , apple, pear, orange, lime, mandarin, , , 

     $words3
        , , , , apple, pear, orange, lime, mandarin, , ,

成功了!标准停用词消失了，Excel 文件中自定义列表中的单词也消失了。毫无疑问，还有其他方法可以做到这一点。

关于r - 如何从词云中删除词？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8619941/

25

4

0

文章推荐： ios - 供应配置文件与包标识符不匹配

文章推荐： kubernetes - 如何使用 kubectl 查看失败作业的日志？

文章推荐： c - 按名称初始化结构的数组成员

文章推荐： java - 如何根据大小更改 JButton 的字体大小？

cloud - 云、网格和集群有什么区别？
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit
Python，云 - 具有调度功能的在线网页抓取工具
我计划使用 python 开发一个 Web/云应用程序，它执行以下操作， 1.上传Perl/Python抓取脚本并执行。 2. 上传脚本以按计划运行。 3. 使用不同的输入参数运行同一脚本的多个实例。
Android 云 - 备份管理器与驱动器
我正在开发一个应用程序，我想实现一个功能，可以在相同的用户设备之间共享，比方说，收藏夹、书签等。所以，我想实现类似 iCloud 的东西。我想到了 2 个可能的想法:Backup Manager 和
Java 云 API
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
r - 创建词组而不是R中的单个词的 "word"云
我正在尝试从一系列短语中使一个单词云成为一个词云，而不是从单个单词中重复很多短语。我的数据看起来像这样，数据框的一列是短语列表。 df$names <- c("John", "John", "Jose
azure - 预配和配置 - Azure 云
对于配置AWS服务(EC2/R53/VPC/S3/..)，Terraform等技术在执行回滚、错误处理等方面的方法不可靠。 AWS CloudFormation 模板解决了这些问题。 CloudFor
Azure 云 shell 错误
我无法使用我的 Azure 帐户执行任何操作，例如创建服务器或数据库或任何操作。看起来这一切都围绕着我无法创建的资源组>我收到此错误: 这特别困难，因为我什至无法使用云外壳，因为我得到了这个:请求 C
websocket - 云/托管推送系统可以使用socket.io作为客户端吗？
是否有在客户端使用 socket.io 的云/托管推送系统？据我所知，没有一个系统使用 socket.io AFAIK: http://beaconpush.com/ http://pusher.co
RStudio 本地 + R 云
有没有办法在我的计算机上本地运行 RStudio，但使用运行 R 作为引擎的远程计算机而不是本地 R 安装？需要明确的是，我知道可以将 RStudio 服务器与 Web GUI 一起使用，但我问的是
java - 如何将视频直播发送到 azure 云？
我正在寻找在这种情况下可以使用的合适服务: 在视频模式下打开相机并将其流式传输到 azure 云。并从另一方聆听(也包括客户)。我读到了有关 Azure 媒体服务的信息。但根据this我知道客户
java - 将应用程序部署到 Google 云
这个问题已经有答案了: 已关闭12 年前。 Possible Duplicate: Google App Engine, getting started 如何将 Java 应用程序部署到 Google
java - 控制台应用程序的替代(云)部署选项
我有一个用 Java 7 编写的相当大的控制台应用程序，它管理大量的订单处理。该应用程序使用大量订单 Web 服务、与数据库交互并将数据插入 ERP 系统。该应用程序的要求没有指定用户交互，因此在项
azure - 是什么让项目适合 Azure/云？
我已经阅读过有关 Windows Azure 的内容，但为了深入了解这项技术，我(显然)需要使用它。我有一个小型 ASP.NET 网站，流量很少，我认为在 Azure 上托管该网站会节省我的钱。除此之
android - 将数据保存到 Parse 云
我的 Activity 中有 3 个编辑文本(姓名、手机号码、职业)和一个按钮(保存)。每次用户单击按钮时，我都想将这三个数据保存到 Parse-cloud。然后新 Activity 在 imagev
json - 传感器数据未上传至 artik 云
我正在尝试通过node.js 将传感器数据发送到artik cloud。 (使用网络套接字和串行端口)。但它发送空。有人知道原因吗？我刚刚复制了教程中的代码，因此没有语法错误。 var webSock
Docker 集线器与 Docker 云
我对 docker hub 和 docker cloud 有一点困惑。我有需要安装在客户端服务器中并运行容器的 docker 镜像。我相信这可以使用 docker hub 来完成，它允许在我的私有(p
这个华夏文明发源地，不仅有矿，还有“云”
晋城，华夏文化发祥地之一。两万年前留下高都遗址、塔水河、下川等人类遗址，女娲补天、愚公移山等神话传说，如今在云上有了崭新的魅力。 9月3日，阿里云数字中国行•晋城峰会期间，晋城市人民政府公布了
airflow - 云 Composer Airflow 插件使用
我刚开始使用 Airflow 插件，有点困惑。我在 GCP (composer-1.13.4-airflow-1.10.12) 上使用 Cloud Composer 作为托管服务运行它我按照文档编
分布式环境(云)中的 PHP XDebug
据我所知，PHP 分析工具 XDebug 将其结果保存到文件中。然而，当应用程序运行在云分布式环境中时，处理此类文件是很困难的。处理这种情况的最佳做法是什么？ XDebug 中是否有任何方法(最好是可
Azure 云 Web 服务、存储选项
我们正在将 PHP 网站迁移到 Azure 云 Web 服务(Web 角色)。目前，该网站通过驱动器盘符访问将用户提交的图像文件保存到文件系统。然后通过 URL 提供这些图像，例如content.e

首页

博学

6Ren·AI

商城

r - 如何从词云中删除词？