gpt4 book ai didi

tomcat - SOLR 术语中的文档是什么?

转载 作者:行者123 更新时间:2023-11-28 22:13:36 25 4
gpt4 key购买 nike

我是 SOLR 的新手,正在阅读它的文档。当他们使用术语文档时,我无法弄清楚他们的意思。最初它几乎感觉像是记录,但后来我读得更多,我可以将它与不同的东西联系起来,比如实际文档(word、pdf 等..)或领域..有人可以澄清它真正指的是什么吗?

例如http://lucene.apache.org/solr/在详细功能 ->架构下,他们将某些内容称为文档。我还检查了他们没有引用的术语页面。 http://wiki.apache.org/solr/SolrTerminology

最佳答案

当我研究 MongoDB 时,我也对术语 document 感到困惑 :-)。可以看到https://en.wikipedia.org/wiki/Document-oriented_database .

Solr 文档大致相当于数据库表中的一行。但是 Solr(和 MongoDB)文档最好被认为是一个“聚合”行。 (NoSQL Distilled 使用术语面向聚合的数据库。)

在数据库世界中,您可以将来自不同表的数据存储到一个聚合表中,以便于数据检索。同样,您可以将来自不同数据库表的数据存储在 Solr 文档中,以实现更快的搜索或富文本分析或分面,或使用数据库(或您现有的数据存储)不可行或效率低下的任何其他 Solr 功能。

您还可以将 Solr(和 Mongo)文档视为 JSON 对象,或更简单地视为键值对。虽然 Mongo 允许您存储嵌套文档,但 Solr 不允许。

嵌套 Mongo 文档示例:

{
Title: NoSQL Distilled,
Authors: [{name: Pramod Sadalage, age: 35},
{name: Martin Fowler, age: 40}],
PubYear: 2012,
Preface: <preface contents>,
BodyText: <entire content of the book>
}

您可以看到 Authors 字段本身包含 2 个文档。

但是在 Solr 中,不允许嵌套,因此,您可以像这样存储该文档(确保索引与 AuthorsAuthorAges 匹配):

{
Title: NoSQL Distilled,
Authors: [Pramod Sadalage, Martin Fowler],
AuthorAges: [35, 40],
PubYear: 2012,
Preface: <preface contents>,
BodyText: <entire content of the book>
}

上述文档可能以“规范化”方式存储在数据库世界中,您可以使用 JOIN 来获取上述所有字段。例如,books 表可能只有唯一字段 titlepubYear 以及 book_id 主键。您将有另一个表 authors,它具有主键 author_idname 以及 age。然后您将有一个表 book_authors 并将作者映射到该书。然后你 JOIN 跨这些表来获取你想要的字段。在“文档”世界中,您将所有这些字段放入一个文档中。

关于tomcat - SOLR 术语中的文档是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17367764/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com