gpt4 book ai didi

mysql - nutch 抓取文档的 Elasticsearch 映射中面临的问题

转载 作者:行者123 更新时间:2023-11-29 01:51:50 28 4
gpt4 key购买 nike

在使用 nutch 和 elasticsearch 进行爬取时遇到一些严重的问题。

我们的应用程序中有两个数据存储引擎。

  1. MySql

  2. Elasticsearch

假设我有 10 个 url 存储在 mysql 数据库的 urls 表中。现在我想在运行时从表中获取这些 url 并将它们写入 seed,txt 以进行抓取。这些url我都一口气写进了need,txt。现在我的爬行开始了,然后我在 elasticsearch 中将这些文档编入索引(可以说是 url 索引)。但我想在 elasticsearch 索引中维护一个引用,以便我可以获取特定 url 的已爬网详细信息以用于分析目的,因为 elasticsearch 索引仅包含已爬网数据。例如。

我在mysql中的表结构是:

表格网址:

ID 网址


1 www.google.com

我想要的 Elasticsearch 索引映射是:

索引网址:

{_id: "www.google.com",输入:“文档”,内容:“ Hello World ”url_id : 1 ,...

这里的url_id是urls表中爬取到的url的id列的字段值。

我可以为每个 url 创建单独的索引,但该解决方案并不理想,因为在一天结束时我将拥有多个索引。那么爬取之后如何实现呢。我是否必须修改 Elasticsearch 索引器。我正在使用 nutch 1.12 和 elastichsearch 1.7.1。非常感谢任何帮助。

最佳答案

您应该将 url_id 作为种子列表中的附加元数据传递,并使用 urlmeta 和索引元数据插件,以便将键/值传递到外链(如果需要)或至少可用于索引。

参见 Nutch WIKI有关如何索引元标记的说明。

关于mysql - nutch 抓取文档的 Elasticsearch 映射中面临的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39697398/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com