gpt4 book ai didi

hadoop - 我应该如何处理映射作业中的中间数据?

转载 作者:可可西里 更新时间:2023-11-01 15:18:21 26 4
gpt4 key购买 nike

<分区>

我正在考虑为 HBase 编写一种查询语言。使用这种查询语言,用户将能够应用过滤器、跨行映射函数以及聚合/减少数据。 (而且,它是一种特定于领域的查询语言。)想象一下数据集非常大,如果使用 HBase,这种情况经常发生。

我的问题是:我应该如何处理不同过滤、映射和聚合之间的中间数据。我应该将数据保存在文件系统上吗?这似乎有点浪费。我是否应该尝试组合函数并一次完成所有操作?

我意识到这在一定程度上取决于我想要实现的目标以及我的查询语言的外观。但是这个普遍的问题通常是如何处理的呢?您有任何提示或见解要分享吗?是否有任何好的文章/资源可以解决这个问题?

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com