- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试用 R 分析意大利语文本。
正如您在文本分析中所做的那样,我已经删除了所有标点符号、特殊字符和意大利语停用词。
但是我对 Stemming 有一个问题:只有一个意大利词干提取器(Snowball),但它不是很精确。
为了进行词干提取,我使用了 tm
图书馆,尤其是 stemDocument
函数,我也尝试使用 SnowballC
库,两者都导致相同的结果。
stemDocument(content(myCorpus[[1]]),language = "italian")
最佳答案
您可以查看的另一种选择是此人的软件包,他有许多不同语言的软件包。这是 Italian 的链接.
它是否对您的案件有帮助是另一回事,但也可以通过 corpus 实现。包裹。如果您向下移动到 Dictionary Stemmer section,他们的文档中也会提供一个示例示例(对于英语用例,针对意大利语进行调整)。
或者,与上述方式类似,您也可以考虑来自 Python 库如 NLTK 的词干分析器或词形还原器(如果您还没有考虑过词形还原器,它们值得考虑)。或 Spacy并检查您是否获得了更好的结果。毕竟,它们只是包含根词与子词映射的文件。下载它们,根据您的要求微调文件,并根据您的方便通过自定义函数传递映射来使用映射。
关于r - Snowball 的意大利 Stemmer 替代品,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57592503/
我正在使用 stemDocument用于使用 tm 提取文本文档R 中的包。示例代码: data("crude") crude[[1]] stemDocument(crude[[1]]) 我收到一条错
我有这个词干字段: 搜索查询的预期结果 alquileres (rent
我想使用 R 中的 tm 包对纯文本文档语料库中的文档进行词干。当我将 SnowballStemmer 函数应用于语料库的所有文档时,只有每个文档的最后一个词会被词干。 library(tm) lib
我使用以下映射创建了索引 PUT http://localhost:9200/test1 { "mappings": { "searchText": {
我一直在为项目使用Elastic Search,但是我发现Snowball Analyzer的结果有点奇怪。 以下是我使用的映射示例。 $myTypeMapping = array( '_so
刚开始使用Lucene.Net。我使用标准分析器索引了100,000行,运行了一些测试查询,并注意到如果原始术语为单数,则复数查询不会返回结果。我了解雪球分析器增加了词干支持,听起来不错。但是,我想知
以下对我有用(搜索“测试”还返回带有“测试”的字段): index : analysis : analyzer : default : type : snowball language : engli
我有一个这样的程序 - import weka.core.stemmers.SnowballStemmer; public class TestProject{ public static void
我正在尝试用 R 分析意大利语文本。 正如您在文本分析中所做的那样,我已经删除了所有标点符号、特殊字符和意大利语停用词。 但是我对 Stemming 有一个问题:只有一个意大利词干提取器(Snowba
当我使用 elastic search 时,我必须先索引它。在这个过程中,我盲目地使用了 "SNOWBALL", "KEYWORD" n analyzer 列。 Analyzer 的主要用途是什么(我
我被这个问题困扰了三天,但没有找到任何解决方案。我正在使用 Weka 开发人员版本 (3.7.10) 使用 NetBeans 7.3 开发 DM 应用程序。我正在尝试使用 Snowball 词干分析器
我有Elasticsearch 2.4和许多使用“snowball”分析器的索引,但是今天我更新到5.1,并且此分析器停止工作,为什么要删除它们,以及如何将“snowball”分析器转换为5.1中的等
我正在尝试使用雪球分析器对索引进行查询。它似乎无法正常工作。如果我输入“starbucks”,它将返回 0 个结果,但是如果我输入“starbuck”,它将返回名称中包含“Starbucks”的所有数
我正在尝试使用 NLTK 雪球词干提取器来词干西类牙语,但我遇到了一些我不知道的编码问题。 这是我要操作的例句: En diciembre, los precios de la energía sub
Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_29); IndexSearcher indexSearcher; File file
我在 R 中使用 tm 和 Snowball 包进行文本挖掘。我最初在装有 Windows 7、8 GB 内存的笔记本电脑上运行它。后来我在一台 64 GB 内存的 Linux (Ubuntu) 机器
这个问题真让我抓狂, 回答大多数人的想法:是的,我将 Snowball.jar 添加到了类路径 我有一个简单的主类,应该将“going”一词词干为“go”: import weka.core.stem
我想截取早期现代英语文本: sb.stem("loveth") >>> "lov" 显然,我需要做的就是a small tweak到雪球词干分析器: And to put the endings in
我正在使用 Golang 中的 aws-sdk-go 包连接到 Amazon S3 以提供基于云的存储池。我有这个运作良好。我希望能够使用 Snowball 支持批量高速传输,因此我得到了一个 Sno
我是一名优秀的程序员,十分优秀!