gpt4 book ai didi

apache-spark - 在数组内的 Spark SQL 中查询

转载 作者:行者123 更新时间:2023-12-04 09:58:37 25 4
gpt4 key购买 nike

为了提供背景,我已经使用加载了 JSON

sqlContext.read.json(sn3://...)
df.registerTable("posts")

我在 Spark 中的表具有以下架构
scala> posts.printSchema
root
|-- command: string (nullable = true)
|-- externalId: string (nullable = true)
|-- sourceMap: struct (nullable = true)
| |-- hashtags: array (nullable = true)
| | |-- element: string (containsNull = true)
| |-- url: string (nullable = true)
|-- type: string (nullable = true)

我想选择所有带有标签“耐克”的帖子
sqlContext.sql("select sourceMap['hashtags'] as ht from posts where ht.contains('nike')");

我收到一个错误
未定义的函数 ht.contains

我不确定使用什么方法在数组中搜索。

谢谢!

最佳答案

我找到了引用 Hive SQL 的答案。

sqlContext.sql("select sourceMap['hashtags'] from posts where array_contains(sourceMap['hashtags'], 'nike')");

关键函数是 array_contains()

关于apache-spark - 在数组内的 Spark SQL 中查询,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35785418/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com