gpt4 book ai didi

solr - solr上的多线程索引

转载 作者:行者123 更新时间:2023-12-01 08:00:16 25 4
gpt4 key购买 nike

我用 tomcat 将一个 Solr 实例部署到一台 ubuntu 机器上。然后我有一个单线程客户端程序来读取数据并将其注入(inject) Solr。我正在观察内存和 CPU 使用情况,并意识到我还有很多资源(就内存和 CPU 而言)可以使用。我想知道我是否应该将我的索引代码更改为多线程以注入(inject)到 Solr 中?使用目前的单线程程序索引2000万条数据,大约需要14个小时。这就是为什么我想知道我是否也应该改为使用多线程。在此先感谢您的建议和帮助! :)

最佳答案

多线程同时索引在Solr中被广泛使用。你说的不是很清楚,如果你也可以多线程阅读你的来源,但我认为这是要走的路。我建议您尝试一下,但首先尝试分析您的代码并查看代码的哪一部分最慢并将其包含在多线程中。

还要注意您的提交策略。

来自 Solr 文档:(http://wiki.apache.org/solr/SolrPerformanceFactors)“一般来说,每个更新请求添加许多文档比每个更新请求添加一个文档要快。......减少自动提交的频率或完全禁用它们可能会加速索引。请注意,这可能会导致内存使用量增加,从而导致其自身的性能问题,例如过度交换或垃圾收集。”

关于solr - solr上的多线程索引,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12508326/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com