gpt4 book ai didi

apache-spark - 更新和插入

转载 作者:可可西里 更新时间:2023-11-01 15:49:21 27 4
gpt4 key购买 nike

我们正在将每小时 JSON 数据接收到 HDFS 中。数据大小约为每小时 5-6 GB。

  • 当在最终表中找到匹配记录时,然后更新(或)删除

  • 如果记录在最终数据集中不匹配,则插入记录。

我们已经为 USE 案例尝试了 Hive 合并选项。这需要一个多小时来处理 Hive 中的合并操作。有没有其他替代方法来解决用例。所以基本上每天我们都将 150GB 的数据添加到配置单元中,每隔一天我们必须扫描 150Gb 的数据以查找是否需要更新/插入

对大型数据集执行 Upserts(Hadoop 中的更新和插入)的最佳方法是什么。 hive 或 HBase 或尼菲。什么是流量。

最佳答案

我们正在使用优步的 Hoodie类似用例的库。它使用带有分区和布隆过滤器索引的 spark 库来加快合并速度。它支持 Hive 和 Presto。

DeltaStreamer Tool可用于快速设置和初始测试

关于apache-spark - 更新和插入,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52015270/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com