gpt4 book ai didi

search - 推荐一个简单的词袋搜索引擎?

转载 作者:行者123 更新时间:2023-12-01 05:46:36 27 4
gpt4 key购买 nike

对小型、轻量级的词袋搜索引擎有什么建议吗?

我有一组“文档”,每个基本上都是一小包任意单词。
给定一个新文档,我需要获取“相似”文档的列表以及它们可能有多相似的权重。文件可能很小……最多几段。

  • 词干会很好,但不是非常需要。
  • 不需要词网的词扩展。
  • 首选开源或免费软件,因为这是一个原型(prototype),而不是一个完整的项目。
  • 首选unix/linux平台。

  • 我会将它用作子组件,并且只希望向它提供带有 ID 的文档,然后会搜索与我目前拥有的文档“相似”的文档。

    最佳答案

    Whoosh是一个纯 Python(没有 C,没有外部数据库)索引器/搜索引擎。查看 documentation了解更多信息。它确实支持词干。

    我在一个 mediawiki 实例的 XML 转储上进行了尝试,它似乎工作得很好!

    关于search - 推荐一个简单的词袋搜索引擎?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1457306/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com