gpt4 book ai didi

scala - 使用 Storehaus 存储 algebird Bloom Filter

转载 作者:IT王子 更新时间:2023-10-29 06:05:18 26 4
gpt4 key购买 nike

我有一个 Spark 作业,其最终输出是一个 Algebird 布隆过滤器,我需要在另一个 Spark 作业中重用这个布隆过滤器。有没有办法使用 Twitter Storehaus 将此布隆过滤器存储在 kv 存储(例如:redis)中并在其他作业中检索它(反序列化为 algebird 布隆过滤器)?

最佳答案

如果您不打算对 bloomfilter 进行并发修改,最好的方法是将 bloomfilter 存储为分布式位集。将键空间视为数组分区的索引,而值是该索引的数组部分。然后你可以用更少的 IO 进行读写。这基本上需要您在 storehaus MergeableStore 级别或 storehaus MergeableStore 重新实现 bloom 算法。

如果在 storehaus 中有这个就好了,但我们实际上还没有这样做。我们一直使用不需要分发的较小的布隆过滤器。

关于scala - 使用 Storehaus 存储 algebird Bloom Filter,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38639871/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com