gpt4 book ai didi

hadoop - 如何在 HBase 中区分两个表

转载 作者:可可西里 更新时间:2023-11-01 14:21:48 25 4
gpt4 key购买 nike

我正在尝试比较 HBase 中的两个不同表,以便我可以自动验证我们用于在 HBase 中移动数据的一些 ETL 过程。在 HBase 中比较两个表的最佳方法是什么?

我的用例如下:

我想做的是创建一个表,这将是我的预期输出。该表将包含我期望通过针对输入文件执行团队代码而创建的所有数据。然后,我将通过实际输出表和预期输出表之间的差异来验证被测组件的完整性。

最佳答案

我不知道开箱即用的任何东西,但你可以编写一个多表 map/reduce。

映射器只会从每个表中发出键(值是所有 hbase 键值加上表名)reducer 可以确保它有每个键的 2 条记录并比较键值。当只有一个键时,它可以看到哪个表不同步

关于hadoop - 如何在 HBase 中区分两个表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18863292/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com