gpt4 book ai didi

java - 短语匹配引擎

转载 作者:行者123 更新时间:2023-11-30 11:26:40 26 4
gpt4 key购买 nike

我想开发一个句子匹配引擎。引擎将生成一个结果,它是与输入最匹配的句子。即使是最小匹配,引擎也必须从数据集(一个包含很多句子的文本文件)中生成一个输出。

例如:输入:
你好,我是 Nidhin Joseph
数据集:
1). 你好,你好吗?
2). 我是 Nidhin。
3). 我是 Nidhin Joseph 你好。
这三个里面,按照我的要求,最配的是 第三句。 我是根据词命中率和词序来排名的。
我的输入:{"Hello","I","am","Nidhin","Joseph"}
我的输出:{"I","am","Nidhin","Joseph","Hello"}

这里没有单词命中 = 4
相对有序的单词数 = 4
我不知道我是否能够向您传达我的想法。如果我做到了,那么请 告诉我,Java 中是否已经有类似的库。 如果没有,请引导我朝着正确的方向发展,以便我可以更轻松地开发它。

最佳答案

我建议使用 Levenshtein 距离算法。您可以对整个句子使用标准算法,将其视为一长串字符(包括空格和标点符号)。

根据您的要求,您可以尝试一些变体,例如对所有单词运行 Porter 词干分析器或忽略标点符号。您甚至可以修改 Levenshtein 算法以使用单词作为其原子而不是字符。

关于java - 短语匹配引擎,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19721082/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com