gpt4 book ai didi

hadoop - 重新索引爬取的数据 Solr 5.4.1

转载 作者:行者123 更新时间:2023-12-02 21:20:16 25 4
gpt4 key购买 nike

我有一个 Solr 设置,它正在从网络爬虫获取数据,目前有大约 500 万个文档。整个系统设置在 Hadoop 之上。

最近我为我的 Solr 实现了自动完成功能。现在的问题是,由于我有 500 万条记录或从网络上爬取的数据,我想重新索引数据而不需要再次爬取这些站点。那么无论如何我可以重新索引已经被索引的数据或者我将不得不再次重新抓取这些站点?
请指教。

BR

最佳答案

我在 python 上工作 SolrClient库,它有一个专门为此制作的方便的重新索引器模块。它会以 JSON 文档的形式将您的集合转储到文件系统,或者立即将其索引到另一个集合中。

http://solrclient.readthedocs.io/en/latest/Reindexer.html

这是重新索引集合的方法。

    from SolrClient import SolrClient, IndexQ
from SolrClient.helpers import Reindexer
r = Reindexer(SolrClient('http://localhost:8983/solr'), SolrClient('http://localhost:8983/solr'), source_coll='collection1', dest_coll='collection1', rows=10000)
r.reindex()

我没有测试重新索引同一个集合,因为我通常重新索引到一个新集合然后切换别名,但它应该可以正常工作。

关于hadoop - 重新索引爬取的数据 Solr 5.4.1,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37596291/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com