- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用 tm
包通过以下代码清理一些数据:
mycorpus <- Corpus(VectorSource(x))
mycorpus <- tm_map(mycorpus, removePunctuation)
然后,我想将语料库转换回数据框,以便导出包含数据框原始格式的数据的文本文件。我尝试过以下方法:
dataframe <- as.data.frame(mycorpus)
但这会返回一个错误:
"Error in as.data.frame.default.(mycorpus) : cannot coerce class "c(vcorpus, > corpus")" to a data.frame
如何将语料库转换为数据框?
最佳答案
你的语料库实际上只是一个带有一些额外属性的字符向量。因此最好将其转换为字符,然后您可以将其保存到 data.frame 中,如下所示:
library(tm)
x <- c("Hello. Sir!","Tacos? On Tuesday?!?")
mycorpus <- Corpus(VectorSource(x))
mycorpus <- tm_map(mycorpus, removePunctuation)
dataframe <- data.frame(text=unlist(sapply(mycorpus, `[`, "content")),
stringsAsFactors=F)
返回
text
1 Hello Sir
2 Tacos On Tuesday
更新:随着 tm
的新版本,他们似乎更新了 as.list.SimpleCorpus
方法,这确实与使用 sapply
混淆了和lapply
。现在我想你必须使用
dataframe <- data.frame(text=sapply(mycorpus, identity),
stringsAsFactors=F)
关于R tm包vcorpus : Error in converting corpus to data frame,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24703920/
已关闭。这个问题是 off-topic 。目前不接受答案。 想要改进这个问题吗? Update the question所以它是on-topic用于堆栈溢出。 已关闭12 年前。 Improve th
我已经安装了NLTK。这是安装日志的图像。 当我使用import nltk时,我收到错误: "No module named NLTK.corpus" 这是屏幕截图。 可能是什么原因? 最佳答案 我想
我的代码引用了 nltk.corpus.words.words()。 哪个NLTK data设置为我需要下载才能访问它? 现在我告诉下载器通过执行 python -m nltk.downloader
我真的是编程新手,这就是为什么我的问题可能很无聊或愚蠢,对此感到抱歉!我正在尝试在 Gephi 中构建共同作者图(graphml 格式)。一切都很好,但我不明白如何在同一文件中导入日期。我的代码如下:
nltk.corpus.wordnet 中哪个相似度函数适用于查找两个词的相似度? path_similarity()? lch_similarity()? wup_similari
本文整理了Java中se.lth.cs.srl.corpus.Yield类的一些代码示例,展示了Yield类的具体用法。这些代码示例主要来源于Github/Stackoverflow/Maven等平台
我已经开始研究 Moses,并尝试制作我认为会是相当标准的基线系统。 the steps described on the website我基本都关注了,但我没有使用 news-commentary,
我找到了一个在大型维基百科数据集上使用 word2vec 的教程 http://danielfrg.github.io/blog/2013/09/21/word2vec-yhat/ 我想构建一个类似于
背景: 给定一个语料库,我想使用 word2wec (Gensim) 的实现来训练它。 想要了解 2 个标记之间的最终相似性是否取决于语料库中 A 和 B 的频率(保留所有上下文),还是不可知。 示例
您好,我正在使用 NLTK、nps_chat 语料库。 我知道我可以像下面这样访问 nps 聊天语料库 posts = nltk.corpus.nps_chat.xml_posts() 我准备了Lab
我一直在阅读不同的问题/答案(尤其是 here 和 here),但没有设法将任何问题/答案应用于我的情况。 我有一个 11,390 行的矩阵,其中包含属性 id、作者、文本,例如: library(t
我想知道 R 的文本挖掘包是否有可能具有以下功能: myCorpus ),control=...) # add docs myCorpus.addDocs(DirSource(),control=..
我正在使用 tm 包通过以下代码清理一些数据: mycorpus corpus")" to a data.frame 如何将语料库转换为数据框? 最佳答案 你的语料库实际上只是一个带有一些额外属性的
有没有一种简单的方法如何不仅可以找到最常用的术语,还可以在 R 的文本语料库中找到表达式(所以不止一个单词,单词组)? 使用 tm 包,我可以找到最常见的术语,如下所示: tdm <- TermDoc
我的问题是在给定两个训练数据 good_reviews.txt 和 bad_reviews.txt 的情况下对文档进行分类。因此,首先我需要加载并标记我的训练数据,其中每一行本身就是一个文档,对应于评
当我使用 Python 2.7(Anaconda、Windows)运行 nltk.corpus.gutenberg.fileids() 时,出现以下错误: File "C:\Anaconda\lib\
我在为斯坦福解析器创建新模型时遇到了一些问题。 我还从斯坦福下载了最新版本: http://nlp.stanford.edu/software/lex-parser.shtml 这里,Genia Co
本文整理了Java中se.lth.cs.srl.corpus.Yield.contains()方法的一些代码示例,展示了Yield.contains()的具体用法。这些代码示例主要来源于Github/
本文整理了Java中se.lth.cs.srl.corpus.Yield.first()方法的一些代码示例,展示了Yield.first()的具体用法。这些代码示例主要来源于Github/Stacko
本文整理了Java中se.lth.cs.srl.corpus.Yield.size()方法的一些代码示例,展示了Yield.size()的具体用法。这些代码示例主要来源于Github/Stackove
我是一名优秀的程序员,十分优秀!