gpt4 book ai didi

indexing - 使用 nutch 时重复 -> elasticsearch 解决方案

转载 作者:行者123 更新时间:2023-12-02 22:17:54 25 4
gpt4 key购买 nike

我已经使用 nutch 抓取了一些数据并设法将其注入(inject)到 elasticsearch 中。但我有一个问题:如果我再次注入(inject)爬取的数据,它会创建重复。有什么方法可以禁止这种情况吗?

有没有人设法解决这个问题或对如何解决它有任何建议?

/萨姆斯

最佳答案

如果您在 ElasticSearch 中为使用相同 id 爬网的每个页面/文档编制索引,则不会复制它。您可以使用校验和/哈希函数将页面的 URL 转换为不同的 ID。

您还可以使用 Operation_type 来确保如果该 id 已被索引,则不应重新索引它:

The index operation also accepts an op_type that can be used to force a create operation, allowing for “put-if-absent” behavior. When create is used, the index operation will fail if a document by that id already exists in the index.



ElasticSearch index API

关于indexing - 使用 nutch 时重复 -> elasticsearch 解决方案,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9414601/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com