gpt4 book ai didi

hadoop - 我如何知道 SQL 查询中正在映射的内容以及正在减少的内容?

转载 作者:可可西里 更新时间:2023-11-01 16:17:54 25 4
gpt4 key购买 nike

我阅读了 MapReduce wiki 页面,但我认为我没有完全理解。我知道查询分为 map 步骤和减少步骤。因此,为了利用这一点,我们应该更多地使用 GROUP BY 并将工作从 map 步骤转移到 reduce 步骤。我不太确定这是如何工作的。看起来很神奇。我想知道一组编写 SQL 查询以利用 MapReduce 的指南。

我如何知道哪些子句在 map 步骤或 reduce 步骤中?它背后的理论是什么?我想了解该理论及其内部工作原理,以便编写更好的查询。

最佳答案

Map函数是数据准备阶段,Mapper可以准备和过滤数据,以便它可以将与输入相同的数据传递给reducer函数。Reducer 从 Mapper 获取输入并尝试减少查询中指定的数据。例如,reducer 将从 mapper 提供的数据中计算聚合,例如 count,max,min of a column。例如,您需要查找不在集合 a、an 和 the 中的词的词数

not filtering is done by mapper.

counting is done by by reducer.

据我了解,Hive 查询中的三件事将导致 reducer 功能。

1.group by

2.join

3.multi row function

剩下的大部分会导致Mapper函数。

关于hadoop - 我如何知道 SQL 查询中正在映射的内容以及正在减少的内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15915798/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com