scala - 数据框中 ArrayType 列之间的差异-6ren

scala - 数据框中 ArrayType 列之间的差异

转载作者：行者123 更新时间：2023-12-01 13:39:57

26

4

我有包含 2 个 ArrayType 列的数据框。我想找出列之间的区别。 column1 将始终具有值，而 column2 可能具有空数组。我创建了以下 udf，但它不起作用

df.show() 给出如下记录

示例数据:

["Test", "Test1","Test3", "Test2"], ["Test", "Test1"]

代码:

sc.udf.register("diff", (value: Column,value1: Column)=>{ 
                        value.asInstanceOf[Seq[String]].diff(value1.asInstanceOf[Seq[String]])          
                    })

输出:

["Test2","Test3"]

Spark 版本 1.4.1任何帮助将不胜感激。

最佳答案

column1 will always have values while column2 may have empty array.

your comment : it gives all values of value – undefined_variable

例子1:

让我们看看这样的小例子......

   val A = Seq(1,1)

 A: Seq[Int] = List(1, 1)

 val B = Seq.empty

 B: Seq[Nothing] = List()
    
A diff B

 res0: Seq[Int] = List(1, 1)

如果您执行 collection.SeqLike.diff，那么您将获得 A 值，如示例所示。根据 scala，这是非常有效的情况，因为你告诉你总是得到 value 这是 seq。

另外，反向大小写是这样的...

 B diff A

 res1: Seq[Nothing] = List()

如果您也使用 Spark udf 执行上述操作，则会出现相同的结果。

编辑:(如果在您修改示例时一个数组不为空)

例子2:

 val p = Seq("Test", "Test1","Test3", "Test2")

 p: Seq[String] = List(Test, Test1, Test3, Test2)

 val q = Seq("Test", "Test1")

 q: Seq[String] = List(Test, Test1)

 p diff q

 res2: Seq[String] = List(Test3, Test2)

这是您示例中给出的预期输出。

相反的情况:我认为这就是你所得到的，而不是你所期望的。

q diff p

 res3: Seq[String] = List()

关于scala - 数据框中 ArrayType 列之间的差异，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41159893/

26

4

0

文章推荐： macos - SH 文件未设置 ENV 变量 (Mac OS X)

文章推荐： java - 使用三元运算符将字符串转换为整数

python - 将 PySpark DataFrame ArrayType 字段组合成单个 ArrayType 字段
我有一个带有 2 个 ArrayType 字段的 PySpark DataFrame: >>>df DataFrame[id: string, tokens: array, bigrams: arra
arrays - ScalaTestFailureLocation 预期的 StructField(value1,ArrayType(StringType,true),false) 实际的 StructField(val2,ArrayType(StringType,true),true)
我正在尝试运行一些测试。即 assertDataFrameEquals(etalon, agg) 在 2 个数据帧上。但是得到如下错误 ScalaTestFailureLocation Expecte
scala - 数据框中 ArrayType 列之间的差异
我有包含 2 个 ArrayType 列的数据框。我想找出列之间的区别。 column1 将始终具有值，而 column2 可能具有空数组。我创建了以下 udf，但它不起作用 df.show() 给出
ios - ArrayType findAndRemove 全局函数出错？
我正在尝试创建一个与 ArrayType 一起使用的全局 findAndRemove 函数，但遇到了问题。我收到一条错误消息: 无法将表达式的类型“0”转换为“@lvalue Named”类型这是函
ios - 扩展 where 子句中的 ArrayType
extension Array where Element: _ArrayType, Element.Generator.Element: Any { func transpose() ->
apache-spark - 修改 ArrayType 中的所有元素
这个问题在这里已经有了答案: TypeError: Column is not iterable - How to iterate over ArrayType()? (2 个答案) 关闭 3 年前
arrays - 来自 ArrayType Pyspark 列的随机样本
我在 Pyspark 数据框中有一列，结构如下 Column1 [a,b,c,d,e] [c,b,d,f,g,h,i,p,l,m] 我想返回另一列，随机选择每行中的每个数组，数量在函数中指定。所以像
python - pyspark - 使用 ArrayType 列折叠和求和
我正在尝试按元素求和，并且我创建了这个虚拟 df。输出应该是 [10,4,4,1] from pyspark.sql.types import StructType,StructField, Stri
scala - 检查 arraytype 列是否包含 null
我有一个包含可以包含整数值的数组类型列的数据框。如果没有值，它将只包含一个值，它将是空值重要 :注意该列不会为空，而是具有单个值的数组；空值 > val df: DataFrame = Seq((
c++ - 获取 HDF5 ArrayType 中的数据类型
在 HDF5 的 C++ 绑定(bind)中，我可以创建一个 1x4 H5::ArrayType 由带有类似表达式的 double 组成 H5::ArrayType array_type(H5::Pr
json - Spark from_json - StructType 和 ArrayType
我有一个以 XML 形式出现的数据集，其中一个节点包含 JSON。 Spark 将其作为 StringType 读取，因此我尝试使用 from_json() 将 JSON 转换为 DataFrame。
python - 在 pyspark 中使用 arraytype 列创建数据框
我正在尝试使用 ArrayType() 列创建一个新的数据框，我尝试过定义模式和不定义模式，但无法获得所需的结果。我的代码在下面，带有架构 from pyspark.sql.types import
arrays - pandas_udf 对两个 ArrayType(StringType()) 字段进行操作
我写了一个UDF。它非常慢。我想用 pandas_udf 替换它以利用矢量化。实际的 udf 有点复杂，但我创建了一个简化的玩具版本。我的问题:是否可以将玩具示例中的 UDF 替换为可以利用矢量化
arrays - PySpark:替换 ArrayType(String) 中的值
我目前有以下代码: def _join_intent_types(df): mappings = { 'PastNews': 'ContextualInformation', 'C
pandas - 识别 PySpark DF ArrayType 列上运行的干净方法
给定以下形式的 PySpark DataFrame: +----+--------+ |time|messages| +----+--------+ | t01| [m1]| | t03|[m1
pyspark - 创建涉及 ArrayType 的 Pyspark 架构
我正在尝试为我的新 DataFrame 创建一个架构，并尝试了括号和关键字的各种组合，但无法弄清楚如何完成这项工作。我目前的尝试: from pyspark.sql.types import * sc
python - 将列中的 String 转换为 ArrayType 并分解
我有一个 PySpark 数据框，其中一列是字符串类型，而字符串是一个 2D 数组/列表，需要分解为行。但是，由于它不是结构/数组类型，因此无法直接使用explode。这可以在下面的示例中看到: a
scala - 获取 Spark 数据帧中 ArrayType 列的不同元素
我有一个包含 3 列名为 id、feat1 和 feat2 的数据框。 feat1 和 feat2 是字符串数组的形式: Id, feat1,feat2 ------------------ 1, [
c++ - 如何读取存储在 HDF5 中的 ArrayType 的一个组件
我有一个 HDF5 数据集，它是使用 H5::ArrayType 为 double[3] 编写的。 DataSpace 是一维的 (rank=1)，具有 ndat 条目(每个类型都是 double[3
你能在 C 中编辑 Postgres ArrayType 吗？
我正在尝试编写一个 PostgreSQL 函数并存储一个 ArrayType *state，每次我调用该函数时都需要更改它。每次调用函数时，我是否需要在 construct_array 中使用单独的

首页

博学

6Ren·AI

商城

scala - 数据框中 ArrayType 列之间的差异

例子1:

编辑:(如果在您修改示例时一个数组不为空)

例子2:

相反的情况:我认为这就是你所得到的，而不是你所期望的。