- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想使用 R 中的 tm 包对纯文本文档语料库中的文档进行词干。当我将 SnowballStemmer 函数应用于语料库的所有文档时,只有每个文档的最后一个词会被词干。
library(tm)
library(Snowball)
library(RWeka)
library(rJava)
path <- c("C:/path/to/diretory")
corp <- Corpus(DirSource(path),
readerControl = list(reader = readPlain, language = "en_US",
load = TRUE))
tm_map(corp,SnowballStemmer) #stemDocument has the same problem
> vec<-c("running runner runs","happyness happies")
> stemDocument(vec)
[1] "running runner run" "happyness happi"
> vec2<-c("running","runner","runs","happyness","happies")
> stemDocument(vec2)
[1] "run" "runner" "run" "happy" "happi" <-
> corp<-Corpus(VectorSource(vec))
> corp<-tm_map(corp, stemDocument)
> inspect(corp)
A corpus with 2 text documents
The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
create_date creator
Available variables in the data frame are:
MetaID
[[1]]
run runner run
[[2]]
happy happi
> corp2<-Corpus(DirSource(path),readerControl=list(reader=readPlain,language="en_US" , load=T))
> corp2<-tm_map(corp2, stemDocument)
> inspect(corp2)
A corpus with 2 text documents
The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
create_date creator
Available variables in the data frame are:
MetaID
$`1.txt`
running runner runs
$`2.txt`
happyness happies
最佳答案
加载所需的库
library(tm)
library(Snowball)
vec<-c("running runner runs","happyness happies")
vec<-Corpus(VectorSource(vec))
class(vec[[1]])
vec[[1]]
<<PlainTextDocument (metadata: 7)>>
running runner runs
stemDocumentfix <- function(x)
{
PlainTextDocument(paste(stemDocument(unlist(strsplit(as.character(x), " "))),collapse=' '))
}
vec1 = tm_map(vec, stemDocumentfix)
vec1[[1]]
<<PlainTextDocument (metadata: 7)>>
run runner run
关于r - Snowball Stemmer 只词干最后一个词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7263478/
我想使用 R 中的 tm 包对纯文本文档语料库中的文档进行词干。当我将 SnowballStemmer 函数应用于语料库的所有文档时,只有每个文档的最后一个词会被词干。 library(tm) lib
这个问题已经有答案了: Is there a java implementation of Porter2 stemmer (7 个回答) 已关闭 8 年前。 就像python nltk(https:
我正在开展一个项目,在该项目中我试图计算多个语料库的屈折形态百分比,以便对它们进行比较。 我知道如何使用 nltk Porter Stemmer 来获取单词的词根,但如果我可以返回词缀而不是词根,这对
由于 fast-stemmer 的问题,我很难安装我想要的任何 ruby gem。我把我得到的错误放在下面。 Building native extensions. This could tak
快速提问,来自 Lucene 包(Java)线程的搬运工词干是安全的吗? 我猜答案是否定的,因为您需要设置当前字符串,调用 stem 方法然后获取当前 block 以获取词干词。但也许我错过了一些东西
我有一个这样的程序 - import weka.core.stemmers.SnowballStemmer; public class TestProject{ public static void
我正在尝试用 R 分析意大利语文本。 正如您在文本分析中所做的那样,我已经删除了所有标点符号、特殊字符和意大利语停用词。 但是我对 Stemming 有一个问题:只有一个意大利词干提取器(Snowba
我正在尝试初始化FrenchStemmer: stemmer = nltk.stem.FrenchStemmer('french') 错误是: AttributeError: 'module' obj
我将 Weka 与 SnowBall 包中提供的 porter Stemmer 结合使用。如果我在 Eclipse 中运行我的应用程序,一切正常,但是一旦我将它导出为可运行的 jar(包含所有库)we
我被这个问题困扰了三天,但没有找到任何解决方案。我正在使用 Weka 开发人员版本 (3.7.10) 使用 NetBeans 7.3 开发 DM 应用程序。我正在尝试使用 Snowball 词干分析器
我正在使用 PorterStemmer Python Port The Porter stemming algorithm (or ‘Porter stemmer’) is a process for
如何在Lucene 3.6.2中使用Porter Stembber类?这是我所拥有的: import org.apache.lucene.analysis.PorterStemmer; ... Por
我是文本分析的新手,正在尝试创建一个词袋模型(使用 sklearn 的 CountVectorizer 方法)。我有一个数据框,其中有一列文本包含“酸”、“酸性”、“酸度”、“木材”、“木质”、“木质
我目前正在尝试阻止一个大语料库(大约 800k 个句子)。我已经成功地只阻止了基本的一个。现在的问题是我只想提取特定单词的词干,例如此方法仅适用于引理是原始单词的子字符串的情况。例如,“苹果”一词的后
我有一个名为“data_stem”的 Pandas 数据框,并且有一列名为“TWEET_SENT_1”,其中包含如下字符串(50 行) TWEET_SENT_1 亲吻十字架的麦克爸爸 我喜欢那个视频
我正在导入 nltk,但出现以下错误。 Traceback (most recent call last): File "/home/control/Work/Intelligence/Datas
有什么办法可以直接访问FORMSOF()中使用的词干分析器吗? CONTAINS 的选项全文搜索查询,以便它返回输入词的词干/屈折变化,而不仅仅是搜索列中存在的那些派生词。 例如,查询 SELECT
我已经搜索了几个小时,但找不到执行此操作的选项。我想做的是将单词添加到 SQL Server 中全文使用的词干分析器中。我在一家机构工作,该机构希望搜索名称的变体。换句话说,如果一名官员输入“Bill
我在 Java 中使用我的应用程序,我使用 Lucene 4.1.0 来使用 Porter Stemmer 方法。我已阅读并实现 this 这是我的代码 import org.apache.lucen
我似乎无法在 rails 中找到任何可以阻止作品的东西。 例如下面的词都会被转换成comput computers computing compute computer 旁注:如果词干提取基于 Por
我是一名优秀的程序员,十分优秀!