gpt4 book ai didi

java - 如何匹配两个文档之间的一个单词或2,3,4,5个连续单词?

转载 作者:行者123 更新时间:2023-12-01 15:08:03 26 4
gpt4 key购买 nike

我有两个文本文档,想要获取两个文档之间的单词匹配。单词可以匹配任何地方 - 例如,doc1 的 word#5 可以匹配 doc2 的 word#3 和 word#67;然后 doc1 的 word#23 可以再次匹配 doc2 的 word#3 和 word#67 - 所以我想要所有匹配项。另外,除了单字匹配之外,我还想在两个文档之间获得连续的多个(2 个字、3 个字 ....15 个字等)字匹配。我应该如何在 Java 中处理这个问题?我一直在研究正则表达式,但仍然不相信确切的方法。

最佳答案

首先,您需要将文档拆分为 n 个单词的束(1 个单词、2 个单词、3 个单词、...、n 个单词) - 这些束称为 n-gram。请参阅here .

其次,从文档 A 创建一组 n-gram。然后,对于文档 B 中的每个 n-gram,检查它是否在该集合中。

关于java - 如何匹配两个文档之间的一个单词或2,3,4,5个连续单词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12709607/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com