gpt4 book ai didi

text - 查找文本中与给定关键字相似度最高的子字符串

转载 作者:行者123 更新时间:2023-11-30 08:22:32 25 4
gpt4 key购买 nike

假设我有这个文本 = 我喜欢苹果、猕猴桃、橙子和香蕉 和 searchString = 猕猴桃和香蕉a similarity algorithmJaccard index 。如何有效地找到 text 中与 searchString 相似度最高的子字符串。

基本上,我试图找到与我所拥有的关键字列表相匹配的文本部分(文本存在大量错误、拼写错误、额外的符号和空格)。

最佳答案

Jaccard 索引是“幸运”的相似性算法,因为您可以更新新符号的值,而无需重新计算所有以前的内容。因此,您可以将 text 查看为结果索引值的差异序列。之后,问题可以减少为 https://en.wikipedia.org/wiki/Maximum_subarray_problem .

你的第二段怎么样,如果你正在进行一些类似 NLP 的研究,我建议在进一步处理之前清理你的数据(尽可能删除那些额外的符号和空格)。这就是所谓的“拼写纠正”,并且有大量不同的算法和库。要选择合适的域名,需要有关您的域的额外信息。

关于text - 查找文本中与给定关键字相似度最高的子字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39480493/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com