gpt4 book ai didi

nosql - 倒排索引的最佳 NoSQL

转载 作者:行者123 更新时间:2023-12-01 06:37:15 26 4
gpt4 key购买 nike

我正在做一个小项目,我需要构建一个倒排索引并应用基于用户查询的相似性算法 - 基本信息检索。构建和搜索倒排索引的最佳 NoSQL 产品是什么?

谢谢,J

最佳答案

由于倒排索引是关于存储单词与其在文档中的位置之间的关系,我不确定这是否真的是 NoSQL 的好用例。传统的 SQL 在这里会更好地工作。例如,尝试这样的数据结构:

Documents (DocumentID primary key, DocumentText text)
Words (WordID primary key, Word text)
Instances (InstanceID primary key, WordID foreign key, DocumentID foreign key, WordIndex integer)

使用这种结构,当您将文档插入Documents 表时,您解析出每个单词并将其添加到Words 表(如果它是新的)或检索现有的WordID如果已经存在,则将关联的数据添加到Instances表中。

如果您打算使用 NoSQL,您可以将它与 MongoDB 之类的东西一起使用,并将所有文档放在一个集合中,将所有单词放在另一个集合中。在每个 Word 文档中,包含一个 Instances 数组,它是一个对象数组,其中包含相关文档的 ObjectID 和其中的单词索引文档。但是,我不确定 MongoDB 是否针对处理文档中如此大的数组进行了优化。像“a”和“the”这样的常用词最终甚至可能会超过 4MB 的文档限制,具体取决于您拥有的数据量。

关于nosql - 倒排索引的最佳 NoSQL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10186731/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com