gpt4 book ai didi

full-text-search - 基于分布式键/值存储的搜索引擎架构?

转载 作者:行者123 更新时间:2023-12-04 13:23:07 26 4
gpt4 key购买 nike

有没有人知道任何描述基于分布式键/值存储构建的大型全文搜索引擎的链接、论文、演示文稿或博客文章?

我对索引的组织特别感兴趣。究竟什么是数据结构?字典和帖子在哪里以及如何存储?查询处理的工作流程是什么?如何以无需通过网络传输大量数据的方式处理查询?

我认为 Blekko 就是这样构建的。我想知道他们或他们的竞争对手实际上做了什么。

最佳答案

我不知道有什么博客文章或文章可以准确地回答您的问题。但是,这里有一些我认为与您的问题相关的资源,我希望它们可以帮助您提炼出答案。

首先,Jeff Dean 关于 Google 架构演进的主题演讲,

  • http://research.google.com/people/jeff/WSDM09-keynote.pdf
  • http://www.cs.cornell.edu/projects/ladis2009/talks/dean-keynote-ladis2009.pdf

  • 接下来,在 K-V 存储之上有一个名为 Lucandra 的开源搜索引擎——顾名思义,Lucene 位于 Cassandra 之上,两者都是 Apache 项目。
  • http://blog.sematext.com/2010/02/09/lucandra-a-cassandra-based-lucene-backend/

  • 为了了解 Lucandra 的工作原理,请查看讨论 Lucene 如何索引 Cassandra 数据的实现和演示。

    同样,你也可以看到Lucene和HBase是如何共存的。这是一个指向 Apache 提交/补丁的链接,它使用一个在另一个上集成了一个搜索层,
  • http://mail-archives.apache.org/mod_mbox/hbase-issues/201104.mbox/%3C1865485299.35732.1302031145872.JavaMail.tomcat@hel.zones.apache.org%3E

  • Redis的另一篇类似文章
  • http://playnice.ly/blog/2010/05/05/a-fast-fuzzy-full-text-index-using-redis/

  • 接下来,查看可扩展搜索系统的操作要求
  • http://www.ir.iit.edu/~abdur/publications/p435-chowdhury.pdf

  • CIS 实验室有一些关于该主题的优秀研究论文,您应该查看一下,
  • http://cis.poly.edu/westlab/publications.html

  • 对于上面可能做出的一般搜索引擎假设,这里有一些书籍链接,可以提供帮助,
  • http://ir.iit.edu/~ophir/pub.html
  • http://www.search-engines-book.com/
  • http://www.ir.uwaterloo.ca/book/
  • http://nlp.stanford.edu/IR-book/information-retrieval-book.html
  • 关于full-text-search - 基于分布式键/值存储的搜索引擎架构?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4445175/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com