gpt4 book ai didi

apache-spark - 如何知道我的数据是倾斜的?

转载 作者:可可西里 更新时间:2023-11-01 15:49:50 25 4
gpt4 key购买 nike

将我的数据(假设是表)传输到 HDFS 后,我不知道我的数据是如何复制的(哪一部分转到哪个机器(节点))。

因此,有人说运行 Spark SQL 查询可以提示我的数据存在偏差。

但是我怎么知道我的数据是倾斜的,所以我可以提示 spark?

最佳答案

这实际上取决于您的数据质量以及您希望如何使用这些数据。此外,取决于您的 Spark 如何实现算法。基本上,您可以使用 SQL 使某些查询选择其中一列作为键,例如 user_name。 id等等,看有没有大的差异,组成一个组。

For example if have such case 
select count(distinct(user_name)) from your table group by user_id

count username
199999999999 abc123
12 abc124
6 abc121

检查上面的例子,用户名abc123是数据倾斜问题。

解决Apache Spark数据倾斜问题的引用文献很少1. http://silverpond.com.au/2016/10/06/balancing-spark.html2. https://databricks.com/session/handling-data-skew-adaptively-in-spark-using-dynamic-repartitioning

关于apache-spark - 如何知道我的数据是倾斜的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51054980/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com