gpt4 book ai didi

solr - 在 hadoop 上运行 solr 索引

转载 作者:可可西里 更新时间:2023-11-01 14:32:13 26 4
gpt4 key购买 nike

我有大量数据需要索引,花了 10 多个小时才完成。有没有办法在 hadoop 上做到这一点?以前有人做过吗?非常感谢!

最佳答案

您还没有解释 10 小时在哪里?是否需要提取数据?还是只需要索引数据。

如果你在提取上花费很长时间,那么你可以使用 hadoop。 Solr 有一个称为批量插入的功能。因此,在您的 map 函数中,您可以积累 1000 条记录,并一次将索引提交给 solr 以获取大量记录。这将大大优化您的表现。

你的数据有多大?

您可以在 map/reduce 作业的 reduce 函数中收集大量记录。您必须在 map 中生成正确的键,以便大量记录进入单个 reduce 函数。在您的自定义 reduce 类中,根据您的 hadoop 版本在设置/配置方法中初始化 solr 对象,然后在清理方法中将其关闭。您将必须创建一个文档集合对象(在 solrNet 或 solrj 中)并将它们全部提交单发。

如果您使用的是 hadoop,则还有一个名为 katta 的选项.你也可以看看。

关于solr - 在 hadoop 上运行 solr 索引,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11622031/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com