gpt4 book ai didi

java - 从文件名创建搜索词

转载 作者:太空宇宙 更新时间:2023-11-04 08:29:22 24 4
gpt4 key购买 nike

我目前正在尝试构建一个小型系统,该系统读取一堆文件名(目前只有几百个),然后允许用户搜索文件名。最终目标是找到重复项,这些重复项不一定具有完全相同的名称,但会共享共同的单词。我最终想添加一个功能,让它能够建议可能的重复项。

目前,我将每个文件路径添加到 ArrayList,然后将文件名的每个单词传递到使用链接的哈希表。这些单词是使用 String.split() 创建的,所有非字母数字字符都将转换为空格。这部分工作正常,你可以搜索单个单词不用担心。

我知道搜索多个术语、获取响应以及建立关于选择每个文档的次数的基本相关性背后的理论。

我当前的问题是文件名类似于“mybestfile”。我的程序只能将它们作为一个单词来处理。除非搜索“mybestfile”,否则您将找不到任何结果。

任何人都可以建议我应该从这里开始的设计路径吗?我知道我可以解析整个字典,然后尝试通过匹配子字符串来提取单词,但说实话,这只是一个简单的程序,我宁愿避免这种事情。

如有任何帮助,我们将不胜感激!!

(这也是一半学习,一半证明我能做到,所以我想知道已经存在的解决方案,但更多的是他们是如何做到的,而不是使用它们)

最佳答案

您可以从使用各种“听起来像”和距离算法开始,这些算法可在 Apache Codec language package 中找到。 。 (我认为距离算法是在 Commons Lang 中,而不是编解码器中。)

SimMetrics是另一个。实际上找不到我要找的那个,但是 here's a list, too .

关于java - 从文件名创建搜索词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7830281/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com