solr - Hadoop 创建一个索引并将其添加到分布式 SOLR 中……这可能吗？我应该使用 Nutch 吗？ ..Cloudera？-6ren

solr - Hadoop 创建一个索引并将其添加到分布式 SOLR 中……这可能吗？我应该使用 Nutch 吗？ ..Cloudera？

转载作者：可可西里更新时间：2023-11-01 14:47:52

24

4

我可以使用 MapReduce 框架创建索引并以某种方式将其添加到分布式 Solr 中吗？

我有大量信息(日志文件和文档)将通过互联网传输并存储在我的数据中心(或亚马逊)中。它需要通过我们复制的 Solr 安装进行解析、索引和最终搜索。

这是我提出的架构:

使用 MapReduce 框架(Cloudera、Hadoop、Nutch，甚至 DryadLinq)为索引准备这些文档
将这些文档索引为 Lucene.NET/Lucene (java) 兼容的文件格式
将该文件部署到我所有的 Solr 实例
激活那个复制的索引

如果可以的话，我需要选择一个 MapReduce 框架。由于 Cloudera 是供应商支持的，并且有大量补丁未包含在 Hadoop 安装中，我认为它可能值得一看。

一旦我选择了 MatpReduce 框架，我需要标记文档(PDF、DOCx、DOC、OLE 等...)，为它们编制索引，将索引复制到我的 Solr 实例，并以某种方式“激活”它们以便它们在运行的实例中是可搜索的。我相信这种方法比通过 REST 接口(interface)向 Solr 提交文档更好。

我将 .NET 纳入其中的原因是因为我们主要是一家 .NET 商店。我们将拥有的唯一 Unix/Java 是 Solr，它有一个通过 Solrnet 利用 REST 接口(interface)的前端。

Based on your experience, how does this architecture look? Do you see any issues/problems? What advice can you give?

我不应该怎么做才能失去分面搜索？阅读 Nutch 文档后，我相信它说它不做分面，但我可能没有足够的软件背景来理解它在说什么。

最佳答案

一般来说，您所描述的几乎就是 Nutch 的工作原理。 Nutch 是一个基于 Hadoop 核心的爬虫、索引、索引合并和查询应答工具包。

您不应该混合使用 Cloudera、Hadoop、Nutch 和 Lucene。您很可能最终会使用所有这些:

Nutch 是索引/应答(如 Solr)机制的名称。
Nutch 本身使用 Hadoop 集群(大量使用它自己的分布式文件系统 HDFS)运行
Nutch 使用 Lucene 格式的索引
Nutch 包含一个查询应答前端，您可以使用它，或者您可以附加一个 Solr 前端并从那里使用 Lucene 索引。
最后，Cloudera Hadoop Distribution(或 CDH)只是一个应用了几十个补丁的 Hadoop 发行版，以使其更加稳定并从开发分支向后移植一些有用的功能。是的，您很可能想要使用它，除非您有理由不这样做(例如，如果您想要一个前沿的 Hadoop 0.22 主干)。

通常，如果您只是在研究现成的爬网/搜索引擎解决方案，那么 Nutch 是一个不错的选择。 Nutch 已经包含了很多插件来解析和索引各种疯狂类型的文档，包括 MS Word 文档、PDF 等。

我个人认为在这里使用 .NET 技术没有多大意义，但如果您对此感到满意，您可以在 .NET 中做前端。然而，对于以 Windows 为中心的团队来说，使用 Unix 技术可能会感到相当尴尬，所以如果我管理过这样的项目，我会考虑替代方案，特别是如果你的爬行和索引任务有限(即你不想出于某种目的抓取整个互联网)。

关于solr - Hadoop 创建一个索引并将其添加到分布式 SOLR 中……这可能吗？我应该使用 Nutch 吗？ ..Cloudera？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4235892/

24

4

0

文章推荐： javascript - jquery附加输入没有将数据传递给服务器

文章推荐： windows - 以编程方式向目录添加具有写入权限的 IIS_IUSRS

文章推荐： javascript - chrome 中的 webkitdirectory 文件选择限制

文章推荐： html - Emacs 组织模式 HTML 脚注

nutch - 蜘蛛 Nutch 会索引它已经在它的索引中的网页吗？
如果 Nutch 页面已经在索引中，它们会再次索引它们吗？如果是这样，我该如何更改？最佳答案是和否。默认情况下，Nutch 只会在 1 个月的某个时间段(从内存中)重新索引页面，如果页面没有更改，
nutch - 我在哪里可以找到有关 Nutch 状态代码的文档？
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
nutch - 如何加快在 Nutch 中的爬行
我正在尝试开发一个应用程序，在该应用程序中，我将为 Nutch 中的 urls 文件提供一组受限的 url。我能够抓取这些 url 并通过从段中读取数据来获取它们的内容。我通过提供深度 1 进行爬网
nutch - 关于使用 nutch 抓取短网址
我正在为我的应用程序使用 nutch 爬虫，它需要爬取一组我提供给 urls 目录的 URL，并且只获取该 URL 的内容。我对内部或外部链接的内容不感兴趣。所以我使用了 NUTCH 爬虫，
nutch - 如何在爬行时制作 Apache Nutch 索引
我开始使用 Apache Nutch (v1.5.1) 来索引某个域下的所有网站。我的域中有大量网站(以百万计)，我需要逐步将它们编入索引，而不是等待整个过程结束。我在 nutch wiki(这里
nutch - 如何使用 nutch 插件解析位于特定 HTML 标签中的内容？
我正在使用 Nutch 抓取网站，我想解析 Nutch 抓取的 html 页面的特定部分。例如， title to search content to search
nutch - 如何从 nutch 获取 html 内容
有没有什么办法可以在抓取网页的同时获取每个网页的html内容？最佳答案是的，您可以实际导出已抓取片段的内容。这并不简单，但对我来说效果很好。首先，使用以下代码创建一个java项目: import
nutch - 在 nutch 1.3 中重新抓取 URL
我将 re_crawler 设置为每天获取一个站点。但它获取了这个站点 3 次。我应该用 nutch 设置什么属性？谢谢。最佳答案我认为您在过去几个月中自己找到了解决方案，但这里是社区的答案。
hadoop - Nutch v Solr v Nutch+Solr
一个相关Question on Stackoverflow存在，但六年半前有人问过。从那时起，Nutch 发生了很多变化。基本上我有两个问题。我们如何比较 Nutch 和 Solr？我们在什么情况
logging - 在 hadoop 上运行 nutch，nutch 日志在哪里？
我的nutch在hadoop上运行，想查看nutch运行日志，但找不到独立的 nutch 日志之类的输出日志。最佳答案如果你在hadoop上运行nutch，会生成每个phase的每个mapper
elasticsearch - 带有 nutch REST api 的 Nutch 弹性索引器中的未知问题
我试图使用 REST 端点公开 nutch，但在索引器阶段遇到了问题。我正在使用 elasticsearch 索引编写器将文档索引到 ES。我使用了 $NUTCH_HOME/runtime/deplo
hadoop - hadoop 1.2.1 上的 nutch 1.9 中缺少 org.apache.nutch.crawl.Crawl
我已经安装了完全分布式的 Hadoop 1.2.1。我试图通过以下步骤集成 nutch: 下载apache-nutch-1.9-src.zip 在nutch-site.xml中添加值http.agen
solr - NUTCH 1.13 获取 url 失败，出现 : org. apache.nutch.protocol.ProtocolNotFound:找不到 url=http 的协议(protocol)
fetch of httpurl failed with: org.apache.nutch.protocol.ProtocolNotFound: protocol not found for url
nutch - 如何在找到的页面上抓取外部链接？
我使用了从他们的 wiki 安装 nutch 的例子。我能够轻松抓取从 dmoz 中提取的多个页面。但是有没有一种配置可以抓取它在页面上找到的外部链接，或者将这些外部链接写入一个文件以供接下来抓取？
nutch - 如何重新爬行
我正在使用与 mysql 集成的 Nutch 2.1。我已经抓取了 2 个站点，Nutch 成功抓取了它们并将数据存储到 Mysql 中。我正在使用 Solr 4.0.0 进行搜索。现在我的问题是，
nutch - 如何在nutch中获取抓取的页面内容和对应的URL？
我想通过文本文件中的 nutch 获取抓取的内容。我已经使用了 #readseg 命令，但输出没有成果。是否有一些插件可以让 nutch 抓取并将 url 和内容存储在文本文件中。最佳答案使用
lucene - Nutch - 如何通过小块爬行？
我不能让 Nutch 小块地为我爬行。我从开始bin/nutch 爬行参数为 -depth 7 和 -topN 10000 的命令。它永远不会结束。仅在我的硬盘为空时结束。我需要做什么: 开始爬我
apache - Nutch 不会抓取表单中的所有链接
我在抓取我的网站时遇到问题...有一个带有两个下拉列表的表单....当我开始抓取时，抓取工具只从表单中获取部分链接....从第一个下拉列表中获取接受部分选项，从第二个下拉菜单开始......我尝试更改
solr - Nutch:数据读取和添加元数据
我最近开始寻找 apache nutch。我可以进行设置并能够使用 nutch 抓取我感兴趣的网页。我不太了解如何读取这些数据。我基本上想将每个页面的数据与一些元数据(现在是一些随机数据)相关联，并将
Apache Nutch 步骤说明
我关注了文章:https://wiki.apache.org/nutch/NutchTutorial并设置 apache nutch +solr。但我想澄清一下我是否对 nutch 步骤的工作理解正确

首页

博学

6Ren·AI

商城

solr - Hadoop 创建一个索引并将其添加到分布式 SOLR 中……这可能吗？我应该使用 Nutch 吗？ ..Cloudera？