gpt4 book ai didi

java - 文本处理/比较引擎

转载 作者:行者123 更新时间:2023-11-30 06:00:10 24 4
gpt4 key购买 nike

我希望比较两个文档,以确定其文本根据关键字匹配的百分比。

要做到这一点,我可以轻松地将它们切成一组经过净化的单词并进行比较,但我想要一些更智能的东西,可以根据词根匹配单词的东西,即。即使它们的时态或复数不同。这种技术似乎用于全文搜索,但我不知道要寻找什么。

是否存在这样的引擎(最好适用于Java)?

最佳答案

是的,您需要一个词干分析器。 Lauri Karttunen 使用有限状态机做了一些令人惊奇的工作,但遗憾的是我认为没有可用的实现。如前所述,Lucene 具有适用于多种语言的词干分析器,OpenNLP 和 Gate 项目也可能对您有所帮助。另外,你打算如何“砍掉他们”?由于标点符号、所有格等因素,这比大多数人想象的要棘手一些。在许多语言中,仅按空白进行分割根本不起作用。也可以看看 OpenNLP。

要考虑的另一件事是,仅比较两个文档的非停用词可能不是获得良好相似性的最佳方法,具体取决于您实际尝试执行的操作,因为您会丢失位置信息。例如,抄袭检测的​​常见方法是将文档分成 n 个标记的 block 并进行比较。有一些算法可以让您同时比较许多文档,这种方式比在每个文档之间进行成对比较要有效得多。

关于java - 文本处理/比较引擎,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1685659/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com