java - Spark UDF : How to write a UDF on each row to extract a specific value in a nested struct?-6ren

java - Spark UDF : How to write a UDF on each row to extract a specific value in a nested struct?

转载作者：行者123 更新时间：2023-12-02 09:13:48

43

4

我正在 Java 中使用 Spark 来处理 XML 文件。来自databricks的spark-xml包用于将xml文件读入dataframe。

示例 xml 文件是:

<RowTag>
    <id>1</id>
    <name>john</name>
    <expenses>
        <travel>
            <details>
                <date>20191203</date>
                <amount>400</amount>
            </details>
        </travel>
    </expenses>
</RowTag>

<RowTag>
    <id>2</id>
    <name>joe</name>
    <expenses>
        <food>
            <details>
                <date>20191204</date>
                <amount>500</amount>
            </details>
        </food>
    </expenses>
</RowTag>

Spark 结果Dataset<Row> df如下所示，每一行代表一个xml文件。

+--+------+----------------+
|id| name |expenses        |
+---------+----------------+
|1 | john |[[20191203,400]]|
|2 | joe  |[[20191204,500]]|
+--+------+----------------+

df.printSchema();如下图所示:

root
|-- id: int(nullable = true)
|-- name: string(nullable = true)
|-- expenses: struct (nullable = true)
|    |-- travel: struct (nullable = true)
|    |    |-- details: struct (nullable = true)
|    |    |    |-- date: string (nullable = true)
|    |    |    |-- amount: int (nullable = true)
|    |-- food: struct (nullable = true)
|    |    |-- details: struct (nullable = true)
|    |    |    |-- date: string (nullable = true)
|    |    |    |-- amount: int (nullable = true)

所需的输出数据帧如下:

+--+------+-------------+
|id| name |expenses_date|
+---------+-------------+
|1 | john |20191203     |
|2 | joe  |20191204     |
+--+------+-------------+

基本上我想要一个通用的解决方案来从具有以下结构的 xml 中获取日期，其中只有标签 <X>会有所不同。

<RowTag>
    <id>1</id>
    <name>john</name>
    <expenses>
        **<X>**
            <details>
                <date>20191203</date>
                <amount>400</amount>
            </details>
        **</X>**
    </expenses>
</RowTag>

我尝试过的:

spark.udf().register("getDate",(UDF1 <Row, String>) (Row row) -> {
            return row.getStruct(0).getStruct(0).getAs("date").toString();
        }, DataTypes.StringType);

df.select(callUDF("getDate",df.col("expenses")).as("expenses_date")).show();

但是它不起作用，因为 row.getStruct(0) 路由到 <travel> ，但是对于 row joe 来说，没有 <travel>标签 <expenses> ，所以它返回了 java.lang.NullPointerException 。我想要的是一个通用的解决方案，对于每一行，它可以自动获取下一个标签名称，例如row.getStruct(0)路线至<travel>对于排约翰和<food>对于排乔。

所以我的问题是:我应该如何重新制定我的 UDF 来实现这一目标？

提前致谢!! :)

最佳答案

spark-xml包允许您直接在选择表达式中访问嵌套字段。为什么要寻找 UDF？

df.selectExpr("id", "name", "COALESCE(`expenses`.`food`.`details`.`date`, `expenses`.`travel`.`details`.`date`) AS expenses_date" ).show()

输出:

+---+----+-------------+
| id|name|expenses_date|
+---+----+-------------+
|  1|john|     20191203|
|  2| joe|     20191204|
+---+----+-------------+

编辑

如果唯一发生变化的标签是 expenses 结构之后的标签，那么您可以搜索 expenses 下的所有字段，然后搜索 coalesce列:expenses.X.details.date。 Spark 中是这样的:

val expenses_fields = df.select(col("expenses.*")).columns
val date_cols = expenses_fields.map(f => col(s"`expenses`.`$f`.`details`.`date`"))

df.select(col("id"), col("name"), coalesce(date_cols: _*).alias("expenses_date")).show()

不过，您不需要使用 UDF!

关于java - Spark UDF : How to write a UDF on each row to extract a specific value in a nested struct?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59177019/

43

4

0

文章推荐： java - JMS 读取消息 MalformedInputException

文章推荐： java - SimpleDateFormat ("dd-MMM-YYYY") 提前一年打印年份

文章推荐： java - 使用哪个集合来进行前面的关键删除并在末尾添加？

php - 调用成员函数 row() 错误 | $row = $query->row(); |代码点火器
首先我要说的是，我主要是一名 iOS 开发人员，最近才开始探索全栈开发的惊心动魄的冒险。我是 PHP 和 MySQL 的新手。话虽如此，我有一个问题，我希望需要一个直接的解决方案。我正在为一个拥有预
row - Janus GridEx : Add custom row and select a specific row
我的表单上有 GridEx 对象并且... 我想用 for...next 循环在其中添加一些项目。实际上我找不到任何方法来添加带有自定义数据的新行。我想在那个 GridEx 对象中选择一个特定的行。
Python Pandas : reusing row value to another row - lookup across row
我有以下数据框 df1 = DataFrame([['OBJ1', 10, 'BX', 'pool1', 'OBJ2'],['OBJ2', 0, '', '', 'OBJ1'],['OBJ3', 1
mysql : Previous Row data if data on another row is equal to data on current row
所以我有以下成员(member)历史表 User_ID | Start date | End Date | Type(0-7) | ---------------------------
mysql - SQL : combinig 2 rows into 1 row based on the first field in row
我不擅长sql。我查看了 stackoverflow，但似乎对我没有任何用处。所以，我正在寻求帮助。是否可以根据行中的第一个字段将 2 行合并为 1 行。我在 mysql 中执行此操作。我将展示示例
bootstrap-4 - Bootstrap Flex : What is the difference between row and flex-row, flex-sm-row 等
我了解 flex sm、md、lg 列的概念，但不了解应用于行的概念。弹性行有什么作用？ sm、md、lg 尺寸应用于弹性行时意味着什么？最佳答案简答 - .row只是网格的容器 col .然而，
mysql - SQL新手: How to compare all rows within a column to reflect how many rows are "cheaper/less than" the respective row?
我遇到麻烦的地方我相信我需要使用 COUNT；但是，我不知道如何将一行与同一列中的每一行进行比较，然后计算有多少行比相应行少/便宜。提前谢谢您! 这是我试图解决的官方问题: “使用示例架构，编写一条
sql : duplicate row and all related rows
我有以下 3 个相关表 Schools Departments Classes --------------- ------------------ --
python - 我不知道代码 "[:, row:row]"的含义
我有代码: g, g_err = data[:, 4:6].T 我不知道[:, 4:6]的含义尤其是第一个: .T 表示转置吗？最佳答案您有一个名为 data 的二维矩阵，您的代码从第一维获取所
javascript - row 事件在附加到 row 内元素的事件之前触发
我在行单击上附加了一个事件，在行内的复选框更改上附加了一个事件。如何防止首先触发行单击？ $(document).on('click', 'table tr', function() { con
sql-server - T-SQL : How to join tables without creating extra rows - need a one row to one row correspondance
我有一个场景，我需要连接两个 SQL 表并且正在为如何做而苦恼。假设在表 A 中我有这个: ColA ColB ColC ColD 45 55 17 45 45
When two cells A and B are in the same row, and cell A moves to a different row, is there a function to move cell B to the same row?(当两个单元格A和B在同一行，而单元格A移动到不同的行时，是否有将单元格B移动到同一行的函数？)
我用谷歌表格记录我们俱乐部的出席率。该表格链接到另一个谷歌表格，因此可以自动创建一个名字列表，并按字母顺序排序。在这张表格中，我还根据我们所做的活动，在人的名字旁边手动输入点数。。问题是，由于姓名列表
java - Row row = sheet.getRow(row Number) 即使 Excel 工作表中存在行，也会返回 java.lang.nullpointerexception。我正在使用 Apache POI
这个问题在这里已经有了答案: What is a NullPointerException, and how do I fix it? (12 个回答) 5年前关闭。编辑:我正在使用此代码读取 Ex
r - (函数(..., row.names = NULL, check.rows = FALSE, check.names = TRUE, : Arguments imply different number of rows: 1, 4, 5, 2
我是 R 的初学者。我希望你能帮助我解决我的问题。我的数据集中的文件名包含大量信息。我必须提取这些信息来创建单独的变量。首先我使用 splits <- t(as.data.frame(strspli
row - scipy.sparse : Set row to zeros
假设我有一个 CSR 格式的矩阵，将一行(或多行)设置为零的最有效方法是什么？下面的代码运行得很慢: A = A.tolil() A[indices, :] = 0 A = A.tocsr() 我不
r - 多行删除 : delete row depending on other row
我遇到了一个相当复杂的问题。我有一个包含三行的数据框:id、info 和 rownum。数据如下所示: id info row 1 a 1 1 b 2
javascript - `lookupIndex[row[lookupKey]] = row;` 是如何工作的？
我正在阅读learnjsdata.com并遇到了这种不熟悉的 JavaScript 语法。语法如下: lookupIndex[row[lookupKey]] = row; 有人知道这里发生了什么吗？我
mysql - mysql : Sum each row After Specific Row
我有一个表格，收集每周足球比赛的结果。根据每场比赛的结果，我根据 ID 为玩家输入 3、1 或 0 分，具体取决于他们是赢、平还是输。 id Name A1 B1 C1 A2 B2
MySQL : combine multiple row into one row
我有一个 mysql 表: 在表1中，我有3列:Bidang、Keahlian、Nilai。在 saran 列的表结果中，我想根据 bidang 组合 keahlian，但如果 nilai > 0，则
mysql - SQL : splitting a row in two rows
我有一个看起来像这样的表 | ID | item1 | item 2 | | 1 | A1 | B1 | | 2 | A2 |

首页

博学

6Ren·AI

商城

java - Spark UDF : How to write a UDF on each row to extract a specific value in a nested struct?