java - 使用 apache lucene 进行词形还原-6ren

java - 使用 apache lucene 进行词形还原

转载作者：塔克拉玛干更新时间：2023-11-03 04:35:28

27

4

我正在使用 apache lucene 开发一个文本分析项目。我需要对一些文本进行词形还原(将单词转换为它们的规范形式)。我已经编写了生成词干的代码。使用它，我可以转换以下句子

The stem is the part of the word that never changes even when morphologically inflected; a lemma is the base form of the word. For example, from "produced", the lemma is "produce", but the stem is "produc-". This is because there are words such as production

进入

stem part word never chang even when morpholog inflect lemma base form word exampl from produc lemma produc stem produc becaus word product

但是，我需要获取单词的基本形式:example 而不是 exampl，produce 而不是 produc 等等。

我正在使用 lucene，因为它有多种语言的分析器(我至少需要英语和俄语)。我知道 Stanford NLP库，但它不支持俄语。

那么有什么方法可以像我使用 lucene 进行词干提取那样对多种语言进行词形还原吗？

我负责词干提取的代码的简化版本:

//Using apache tika to identify the language
LanguageIdentifier identifier = new LanguageIdentifier(text);
//getting analyzer according to the language (eg, EnglishAnalyzer for 'en')
Analyzer analyzer = getAnalyzer(identifier.getLanguage());
TokenStream stream = analyzer.tokenStream("field", text);
stream.reset();
while (stream.incrementToken()) {
    String stem = stream.getAttribute(CharTermAttribute.class).toString();
    // doing something with the stem
    System.out.print(stem+ " ");
}
stream.end();
stream.close();

更新:我找到了 library它几乎可以满足我的需要(针对英语和俄语)并使用 apache lucene(尽管以其自己的方式)，这绝对值得探索。

最佳答案

如果有人仍然需要它，我决定回到这个问题并说明如何使用 russianmorphology我之前发现的库可以对英语和俄语进行词形还原。

首先，您需要这些 dependencies (除了 lucene-core):

<!-- if you need Russain -->
<dependency>
    <groupId>org.apache.lucene.morphology</groupId>
    <artifactId>russian</artifactId>
    <version>1.1</version>
</dependency>

<!-- if you need English-->
<dependency>
    <groupId>org.apache.lucene.morphology</groupId>
    <artifactId>english</artifactId>
    <version>1.1</version>
</dependency>

<dependency>
    <groupId>org.apache.lucene.morphology</groupId>
    <artifactId>morph</artifactId>
    <version>1.1</version>
</dependency>

然后，确保导入正确的分析器:

import org.apache.lucene.morphology.english.EnglishAnalyzer;
import org.apache.lucene.morphology.russian.RussianAnalyzer;

与标准的 lucene 分析器不同，这些分析器使用 MorphologyFilter 将每个单词转换为一组其正常形式。

所以如果你使用下面的代码

String text = "The stem is the part of the word that never changes even when morphologically inflected; a lemma is the base form of the word. For example, from \"produced\", the lemma is \"produce\", but the stem is \"produc-\". This is because there are words such as production";
Analyzer analyzer = new EnglishAnalyzer();
TokenStream stream = analyzer.tokenStream("field", text);
stream.reset();
while (stream.incrementToken()) {
    String lemma = stream.getAttribute(CharTermAttribute.class).toString();
    System.out.print(lemma + " ");
}
stream.end();
stream.close();

它会打印

the stem be the part of the word that never change even whenmorphologically inflected inflect a lemma be the base form of the wordfor example from produced produce the lemma be produce but the stem beproduc this be because there are be word such as production

对于俄语文本

String text = "Продолжаю цикл постов об астрологии и науке. Астрология не имеет научного обоснования, но является частью истории науки, частью культуры и общественного сознания. Поэтому астрологический взгляд на науку весьма интересен.";

RussianAnalyzer 将打印以下内容:

продолжать цикл пост об астрология и наука астрология не иметь научныйобоснование но являться часть частью история наука часть частьюкультура и общественный сознание поэтому астрологический взгляд нанаука весьма интересный

你可能会注意到有些词有不止一种基本形式，例如inflected 转换为 [inflected, inflect]。如果您不喜欢这种行为，则必须更改 org.apache.lucene.morphology.analyzer.MorhpologyFilter 的实现(如果您对具体操作感兴趣，请告诉我知道，我会详细说明)。

希望对您有所帮助，祝您好运!

关于java - 使用 apache lucene 进行词形还原，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47725035/

27

4

0

文章推荐： algorithm - 回溯算法设计技术定义

文章推荐： algorithm - 词组树成数组

文章推荐： java - 在 Jenkins 管道脚本中找不到适合抓取的类加载器

git - 还原 merge 还原
我以这种方式恢复了 merge 提交(功能->开发): git revert -m 1 git push origin develop 已创建新提交 Revert "Merge branch 'fe
delphi - 如何对具有子属性的属性进行编码？ (还原)
我确信我得到了一个很好的答案 my previous question因为我之前从那些发帖的人那里得到了很多关于其他问题的帮助。但我显然做错了什么，因为当我复制示例代码时，对象检查器向我显示的 My
github for windows 还原
我现在处于一个非常愚蠢的境地。使用 git-hub for windows 我已经恢复了我最近的两个本地提交，我无法撤消这个(恢复命令)。很多代码都没有了。是否可能恢复还原的提交？我是 git 的新手
git - TortoiseGit - 还原？
我正在使用 TortoiseGit。我想恢复到删除几张图片之前的某个时间点。我该怎么做，我看到的还原方法是不正确的.... 最佳答案右键单击您的工作目录并从 TortoiseGit 菜单中选择显示
terraform 还原 RDS 备份
我们使用 Terraform 在 AWS 中创建所有资源。如果一切按计划进行，那将很方便。但是，我们确实必须考虑出现问题的时间。我们有一个问题是 RDS 实例。它由 Terraform 创建和跟踪。在
TortoiseSVN 还原 vs 更新
跟在后面有什么区别？ (右键单击项目文件夹)更新到修订版 XXX (右击日志列表)恢复到这个版本 (右键单击日志列表)还原此修订版的更改最佳答案 (右键单击项目文件夹)更新到修订版 XXX Your
java - 还原 Eclipse 透视图
我不知何故搞砸了我的观点，我想重置它们，但是重置按钮是灰色的。有谁知道会导致这种情况的原因吗？我希望我有更多的信息，但我真的只知道这些。最佳答案转到窗口菜单 => 重置透视图。编辑: 该选项可
reactjs - 多用户登录认证| react 还原
我有一个具有多用户登录功能的应用程序。现在，我为登录功能创建了 redux 存储。如果用户登录，根据其类型，它将重定向到特定的仪表板。如果学生用户登录，他应该只能访问学生仪表板，他不应该能够访问其他仪
git - 反正有没有查看所有以前的 GIT 还原
我已经恢复了一些更改。需要知道之前恢复的代码中的文件和更改(差异)。最佳答案是的，正如 ElpieKay 所说，您可以使用 git log --grep='Revert' 。还有一个默认消息“
javascript - typescript react /还原
出现错误 ERROR in [at-loader] ./src/app/components/partials/userPartial.tsx:101:33 TS2339: Property 'lev
javascript - 还原。没有括号，导出无法正确完成
我不明白为什么主 JS 文件不想从 './actions' 导入 todo 而不带括号？ todos from './reducers' 类似的情况，import 没有任何问题。主 js 文件: i
javascript - 还原 AngularJS 中的过滤器
我像这样以编程方式应用 AngularJS 过滤器: filtered = $filter('number')(value, 2); 这会给我类似 5,000.00 的东西。我需要一种方法来获取过滤后
javascript - 还原。将状态值传递给 reducer
我正在尝试在我的应用中实现 Redux。所以，我创建了 action、reducer、store 等……现在我必须将状态传递给 reducer 并更改此参数( bool 值)的值。我不知道我做错了什么
Javascript 跨越内容，设置文本()，还原
我有一个带有如下 DIV 的跨度: Here is my 现在我可以将我的内容设置为跨度，例如: $(.span.foo).text("This removed my inn
database - 还原 Postgres 数据库时出现不重音问题
我也想将另一个数据库名称下的特定数据库还原到另一台服务器。到目前为止，还不错。我使用了这个命令: pg_dump -U postgres -F c -O -b -f maindb.dump main
git - 还原 git 上次提交并将其保存在不同的分支中
有没有办法回滚上次的提交，放到单独的分支中，以供以后测试？我做了一些我不想完全丢弃的更改，我只是想将它们放在不同的分支中以供进一步测试。谁能帮我解决这个问题？最佳答案是的，您可以实现这一点 -
git - 还原 merge 所做的更改
开发人员正在对两个文件进行小的更改。但是在这次提交期间，他遇到了 merge 冲突，删除了很多东西(可能没有最新的版本)。然后它被推送到共享仓库，其他一些开发人员做了一些其他提交。现在，我们注意到
git - 如何使用 Git 还原
git revert 是如何使用的？这听起来像是一个重复的问题，但当人们问它时，回答通常是，按照 Revert to a commit by a SHA hash in Git? 使用 git re
还原 Cloudflare CDN 漏洞被利用的过程
Cloudflare 已修复其免费开源 CDNJS 中的一个严重漏洞，该漏洞可能影响互联网上 12.7% 的网站。 CDNJS为数百万网站提供超过4000个JavaScript和CSS库，这些库公
命令行模式下备份、还原 MySQL 数据库的语句小结
为了安全起见，需要经常对数据库作备份，或者还原。对于 MySQL 而言，最方便的方法可能就是用 phpMyAdmin 的导出、导入功能了，但如果你的数据库体积比较大，作为 Web 应用的 phpMy

首页

博学

6Ren·AI

商城

java - 使用 apache lucene 进行词形还原