apache-spark - 如何在 Spark SQL 中限制 functions.collect

apache-spark - 如何在 Spark SQL 中限制 functions.collect_set？

转载作者：行者123 更新时间：2023-12-03 22:29:42

25

4

我正在处理一个大型 spark DataFrame 中的一列数字，我想创建一个新列来存储出现在该列中的唯一数字的聚合列表。

基本上正是 functions.collect_set 所做的。但是，我只需要聚合列表中最多 1000 个元素。有没有办法将该参数以某种方式传递给functions.collect_set()，或以任何其他方式在聚合列表中最多只获取1000个元素，而不使用UDAF？

由于该列太大，我想避免收集所有元素并在之后修剪列表。

谢谢!

最佳答案

Spark 2.4
正如评论中指出的那样，Spark 2.4.0带有切片标准功能，可以做这种事情。

val usage = sql("describe function slice").as[String].collect()(2)
scala> println(usage)
Usage: slice(x, start, length) - Subsets array x starting from index start (array indices start at 1, or starting from the end if start is negative) with the specified length.

这给出了以下查询:

val q = input
  .groupBy('key)
  .agg(collect_set('id) as "collect")
  .withColumn("three_only", slice('collect, 1, 3))
scala> q.show(truncate = false)
+---+--------------------------------------+------------+
|key|collect                               |three_only  |
+---+--------------------------------------+------------+
|0  |[0, 15, 30, 45, 5, 20, 35, 10, 25, 40]|[0, 15, 30] |
|1  |[1, 16, 31, 46, 6, 21, 36, 11, 26, 41]|[1, 16, 31] |
|3  |[33, 48, 13, 38, 3, 18, 28, 43, 8, 23]|[33, 48, 13]|
|2  |[12, 27, 37, 2, 17, 32, 42, 7, 22, 47]|[12, 27, 37]|
|4  |[9, 19, 34, 49, 24, 39, 4, 14, 29, 44]|[9, 19, 34] |
+---+--------------------------------------+------------+

在 Spark 2.4 之前
我会使用 UDF 来做你想做的事 collect_set (或 collect_list)或更难的 UDAF。
鉴于对 UDF 的更多经验，我会首先使用它。即使 UDF 没有优化，对于这个用例也很好。

val limitUDF = udf { (nums: Seq[Long], limit: Int) => nums.take(limit) }
val sample = spark.range(50).withColumn("key", $"id" % 5)

scala> sample.groupBy("key").agg(collect_set("id") as "all").show(false)
+---+--------------------------------------+
|key|all                                   |
+---+--------------------------------------+
|0  |[0, 15, 30, 45, 5, 20, 35, 10, 25, 40]|
|1  |[1, 16, 31, 46, 6, 21, 36, 11, 26, 41]|
|3  |[33, 48, 13, 38, 3, 18, 28, 43, 8, 23]|
|2  |[12, 27, 37, 2, 17, 32, 42, 7, 22, 47]|
|4  |[9, 19, 34, 49, 24, 39, 4, 14, 29, 44]|
+---+--------------------------------------+

scala> sample.
  groupBy("key").
  agg(collect_set("id") as "all").
  withColumn("limit(3)", limitUDF($"all", lit(3))).
  show(false)
+---+--------------------------------------+------------+
|key|all                                   |limit(3)    |
+---+--------------------------------------+------------+
|0  |[0, 15, 30, 45, 5, 20, 35, 10, 25, 40]|[0, 15, 30] |
|1  |[1, 16, 31, 46, 6, 21, 36, 11, 26, 41]|[1, 16, 31] |
|3  |[33, 48, 13, 38, 3, 18, 28, 43, 8, 23]|[33, 48, 13]|
|2  |[12, 27, 37, 2, 17, 32, 42, 7, 22, 47]|[12, 27, 37]|
|4  |[9, 19, 34, 49, 24, 39, 4, 14, 29, 44]|[9, 19, 34] |
+---+--------------------------------------+------------+

见 functions对象(用于 udf 函数的文档)。

关于apache-spark - 如何在 Spark SQL 中限制 functions.collect_set？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38730912/

25

4

0

文章推荐： firebase - Firebase存储配额已超出

文章推荐： github - github show在特定日期提交

文章推荐： r - 在 ggplot2 中自定义 "scale_color_gradient2"

sql - Hive collect_set() 但要删除连续的重复项
我想在使用 hive 时删除数组中的连续重复项。 collect_list()保留所有重复项，而 collect_set()只保留不同的条目。我有点需要一些中间立场。例如，从下表: id | n
hadoop - 如何在不同列中使用 COLLECT_SET 和按条件分组
我有这张表: ╔═════════╦═════════╦══════════════╗ ║ user_id ║ item_id ║ date_visited ║ ╠═════════╬════════
hadoop - 在配置单元中的移动窗口函数上执行 collect_set 时只保留不同的行
假设我有一个包含 3 行的配置单元表:merchant_id、week_id、acc_id。我的目标是每周收集前 4 周内的唯一客户，我正在使用移动窗口来执行此操作。我的代码: 创建测试表: CRE
hadoop - 配置单元 collect_set 崩溃查询
我有下表: hive> describe tv_counter_stats; OK day string event string query_id string user
sql - hive collect_set 数组操作
我正在处理大型数据集上的配置单元，我有一个包含列数组的表，列的内容如下。 ["20190302Prod4" "20190303Prod1" "20190303Prod4" "20190304Prod4
hadoop - 配置单元:使用带分隔符的 collect_set
我正在尝试在配置单元查询中使用 collect_set 按条件对组中的列进行分组。每行都有空格作为分隔符，而不是“，”之类的。在这种情况下如何将分隔符更改为“，”或任何其他分隔符？提前致谢。问候，
group-by - groupby 之外的列的 pyspark collect_set
我正在尝试使用 collect_set 获取类别名称字符串列表不是 groupby 的一部分。我的代码是 from pyspark import SparkContext from pyspark
mysql - 如何在 hive 查询中使用 collect_set
我在 hive 中有一个表，如下所示 id name sal 1 sam 2000 2 Ram 3000 3 Tim 4000 4 Ash 5000 我想
python - 带有二进制列的 Spark/PySpark collect_set
一些测试数据，有两列:第一列二进制(在此示例中使用字母数字字节)，第二列是整数: from pyspark.sql.types import * from pyspark.sql import fun
hadoop - 如何编写查询以避免在选择不同和大小的 collect_set 配置单元查询中使用单个 reducer？
如何重写这些查询以避免在 reduce 阶段使用单个 reducer？它需要永远，我失去了使用它的并行性的好处。 select id , count(distinct locations) AS un
hadoop - Hive (Hadoop) 中的 COLLECT_SET()
我刚刚了解了 Hive 中的 collect_set() 函数，并开始从事开发 3 节点集群的工作。我只有大约 10 GB 需要处理。然而，这项工作确实需要永远。我认为 collect_set()
java - Hive 中的 COLLECT_SET()，保留重复项？
有没有办法将重复项保存在 Hive 的收集集中，或者使用其他方法模拟 Hive 提供的那种聚合集合？我想将列中具有相同键的所有项目聚合到一个数组中，并带有重复项。 IE: hash_id | num_
google-bigquery - 谷歌 bigquery 的 collect_set
嗨，我在任何地方都找不到这个。如何在 Google BigQuery 中执行 collect_set？我有一个已经用大查询编写的查询选择用户身份，脚步，从表我需要将每个 user_id 的所有
apache-spark - Spark collect_set 与 distinct
如果我的目标是将列中的不同值收集为列表，使用其中任何一个是否存在性能差异或优缺点？ df.select(column).distinct().collect()... 对比 df.select(col
sql - 使用 collect_set 的 Hive 查询
我有 2 个表，sample_table1，下面有两列 C1 C2 001 a 001 b 001 e 002 c 002 b 003 a 003 c 和 sample_table2
hadoop - collect_set on array type with group by 在配置单元中
我有下表，其中包含 id 的重复项以及每个 id 的值数组，我想找出每个 id 的唯一值，该怎么做？ CREATE TABLE test( id string, values array) 当我运行以
sql - 如何在 hive 中通过 collect_set() 操作使用 order by
在表 1 中，我有 customer_id、item_id 和 item_rank(根据一些销售额的项目排名)。我想为每个 customer_id 收集一个项目列表，并根据 item_rank 排列它
java - Spark SQL : using collect_set over array values?
我有一个聚合 DataFrame，其中有一列是使用 collect_set 创建的。我现在需要再次聚合此 DataFrame，并再次将 collect_set 应用于该列的值。问题是我需要应用 col
hadoop - 如何在配置单元 udf 中使用 collect_set 的结果 - 评估方法？
Hive 查询 - select ...MYUDF(collect_set(col1))..from tableN 这里的 col1 是字符串类型。我想对传递的 collect_set 数据执行某些逻
apache-spark - 如何在 Spark SQL 中限制 functions.collect_set？
我正在处理一个大型 spark DataFrame 中的一列数字，我想创建一个新列来存储出现在该列中的唯一数字的聚合列表。基本上正是 functions.collect_set 所做的。但是，我只需

首页

博学

6Ren·AI

商城

apache-spark - 如何在 Spark SQL 中限制 functions.collect_set？