gpt4 book ai didi

solr - Hadoop 创建一个索引并将其添加到分布式 SOLR 中……这可能吗?我应该使用 Nutch 吗? ..Cloudera?

转载 作者:可可西里 更新时间:2023-11-01 14:47:52 24 4
gpt4 key购买 nike

我可以使用 MapReduce 框架创建索引并以某种方式将其添加到分布式 Solr 中吗?

我有大量信息(日志文件和文档)将通过互联网传输并存储在我的数据中心(或亚马逊)中。它需要通过我们复制的 Solr 安装进行解析、索引和最终搜索。

这是我提出的架构:

  • 使用 MapReduce 框架(Cloudera、Hadoop、Nutch,甚至 DryadLinq)为索引准备这些文档
  • 将这些文档索引为 Lucene.NET/Lucene (java) 兼容的文件格式
  • 将该文件部署到我所有的 Solr 实例
  • 激活那个复制的索引

如果可以的话,我需要选择一个 MapReduce 框架。由于 Cloudera 是供应商支持的,并且有大量补丁未包含在 Hadoop 安装中,我认为它可能值得一看。

一旦我选择了 MatpReduce 框架,我需要标记文档(PDF、DOCx、DOC、OLE 等...),为它们编制索引,将索引复制到我的 Solr 实例,并以某种方式“激活”它们以便它们在运行的实例中是可搜索的。我相信这种方法比通过 REST 接口(interface)向 Solr 提交文档更好。

我将 .NET 纳入其中的原因是因为我们主要是一家 .NET 商店。我们将拥有的唯一 Unix/Java 是 Solr,它有一个通过 Solrnet 利用 REST 接口(interface)的前端。

Based on your experience, how does this architecture look? Do you see any issues/problems? What advice can you give?

应该怎么做才能失去分面搜索?阅读 Nutch 文档后,我相信它说它不做分面,但我可能没有足够的软件背景来理解它在说什么。

最佳答案

一般来说,您所描述的几乎就是 Nutch 的工作原理。 Nutch 是一个基于 Hadoop 核心的爬虫、索引、索引合并和查询应答工具包。

您不应该混合使用 Cloudera、Hadoop、Nutch 和 Lucene。您很可能最终会使用所有这些:

  • Nutch 是索引/应答(如 Solr)机制的名称。
  • Nutch 本身使用 Hadoop 集群(大量使用它自己的分布式文件系统 HDFS)运行
  • Nutch 使用 Lucene 格式的索引
  • Nutch 包含一个查询应答前端,您可以使用它,或者您可以附加一个 Solr 前端并从那里使用 Lucene 索引。
  • 最后,Cloudera Hadoop Distribution(或 CDH)只是一个应用了几十个补丁的 Hadoop 发行版,以使其更加稳定并从开发分支向后移植一些有用的功能。是的,您很可能想要使用它,除非您有理由不这样做(例如,如果您想要一个前沿的 Hadoop 0.22 主干)。

通常,如果您只是在研究现成的爬网/搜索引擎解决方案,那么 Nutch 是一个不错的选择。 Nutch 已经包含了很多插件来解析和索引各种疯狂类型的文档,包括 MS Word 文档、PDF 等。

我个人认为在这里使用 .NET 技术没有多大意义,但如果您对此感到满意,您可以在 .NET 中做前端。然而,对于以 Windows 为中心的团队来说,使用 Unix 技术可能会感到相当尴尬,所以如果我管理过这样的项目,我会考虑替代方案,特别是如果你的爬行和索引任务有限(即你不想出于某种目的抓取整个互联网)。

关于solr - Hadoop 创建一个索引并将其添加到分布式 SOLR 中……这可能吗?我应该使用 Nutch 吗? ..Cloudera?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4235892/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com