scala - 如何更改 DataFrame 的模式(修复一些嵌套字段的名称)？-6ren

scala - 如何更改 DataFrame 的模式(修复一些嵌套字段的名称)？

转载作者：行者123 更新时间：2023-12-01 10:25:02

24

4

我有一个问题，当我们将 Json 文件加载到 Spark 中时，将其存储为 Parquet，然后尝试从 Impala 访问 Parquet 文件； Impala 提示列的名称，因为它们包含在 SQL 中非法的字符。

JSON 文件的“特征”之一是它们没有预定义的架构。我想让 Spark 创建模式，然后我必须修改具有非法字符的字段名称。

我的第一个想法是对 DataFrame 中的字段名称使用 withColumnRenamed ，但我认为这只适用于顶级字段，所以我不能使用它，因为 Json 包含嵌套数据。

所以我创建了以下代码来重新创建 DataFrames 模式，递归地遍历结构。然后我使用该新架构重新创建 DataFrame。

(代码根据 Jacek 建议的使用 Scala 复制构造函数的改进进行了更新。)

def replaceIllegal(s: String): String = s.replace("-", "_").replace("&", "_").replace("\"", "_").replace("[", "_").replace("[", "_")
def removeIllegalCharsInColumnNames(schema: StructType): StructType = {
  StructType(schema.fields.map { field =>
    field.dataType match {
      case struct: StructType =>
        field.copy(name = replaceIllegal(field.name), dataType = removeIllegalCharsInColumnNames(struct))
      case _ =>
        field.copy(name = replaceIllegal(field.name))
    }
  })
}

sparkSession.createDataFrame(df.rdd, removeIllegalCharsInColumnNames(df.schema))

这行得通。但是有没有更好/更简单的方法来实现我想做的事情？

有没有更好的方法来替换 DataFrame 上的现有模式？以下代码无效:

df.select($"*".cast(removeIllegalCharsInColumnNames(df.schema)))

它给出了这个错误:

org.apache.spark.sql.AnalysisException: Invalid usage of '*' in expression 'cast'

最佳答案

我认为最好的办法是将数据集(在保存为 parquet 文件之前)转换为 RDD，并根据需要使用自定义模式来描述结构。

val targetSchema: StructType = ...
val fromJson: DataFrame = ...
val targetDataset = spark.createDataFrame(fromJson.rdd, targetSchema)

请参阅 SparkSession.createDataFrame 中的示例作为引用，但是当您要从数据集创建它时，它直接使用 RDD。

val schema =
  StructType(
    StructField("name", StringType, false) ::
    StructField("age", IntegerType, true) :: Nil)

val people =
  sc.textFile("examples/src/main/resources/people.txt").map(
    _.split(",")).map(p => Row(p(0), p(1).trim.toInt))
val dataFrame = sparkSession.createDataFrame(people, schema)
dataFrame.printSchema
// root
// |-- name: string (nullable = false)
// |-- age: integer (nullable = true)

但是正如您在评论中提到的(我后来将其合并到您的问题中):

JSON files don't have a predefined schema.

话虽如此，我认为您的解决方案是正确的。 Spark 不提供开箱即用的任何类似功能，我认为更多的是开发自定义 Scala 代码，该代码将遍历 StructType/StructField 树并更改不正确的内容。

我建议在您的代码中更改的是使用 copy 构造函数(Scala 的案例类的一个功能 - 参见 A Scala case class ‘copy’ method example )，它只会更改不正确的名称而其他属性保持不变.

使用 copy 构造函数将(大致)对应于以下代码:

// was
// case s: StructType =>
//    StructField(replaceIllegal(field.name), removeIllegalCharsInColumnNames(s), field.nullable, field.metadata)
s.copy(name = replaceIllegal(field.name), dataType = removeIllegalCharsInColumnNames(s))

函数式语言(一般而言)和 Scala(特别是)中有一些设计模式可以处理深层嵌套结构操作，但这可能太多了(我犹豫要不要分享)。

因此，我认为问题的当前“形式”更多是关于如何将树作为数据结构而不一定是 Spark 模式来操作。

关于scala - 如何更改 DataFrame 的模式(修复一些嵌套字段的名称)？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45218373/

24

4

0

文章推荐： f# - FsCheck如何生成元组

文章推荐： Django 2 : project root url namespace not working

c++ - 如何将字符串数组的值分配给 "Name"+ #，例如。名称 1、名称 2、名称 3 等。C++
我正在尝试做这样的事情:Name[i] = "Name"+ (i+1) 在 forloop 中，这样数组的值将是:Name[0] = Name1，Name[1] = Name2，Name[2] = N
javascript - 如何从Javascript或JQuery获取Grails中的 Action 名称(或 View 名称)
我读了here，在GSP中我们可以这样写: ${params.action} 从GSP中，我们可以使用${params.action}作为参数调用Javascript函数(请参阅here)。是否有其
java - 如何解析名称=值^^名称=值^^名称=值
我的问题:非常具体。我正在尝试想出解析以下文本的最简单方法: ^^domain=domain_value^^version=version_value^^account_type=account_ty
cakephp 路由修改 Controller 名称/获取 Controller 名称
我创建了一条与此类似的路线: Router::connect("/backend/:controller/:action/*"); 现在我想将符合此模式的每个 Controller 路由重命名为类似
sql - 警告 SQL71502 - 过程 <名称> 具有对对象 <名称> 的未解析引用
我在 Visual Studio 2013 项目中收到以下警告: SQL71502 - Procedure has an unresolved reference to object 最佳答案这可以
c# - 名称/值 .NET 集合或 .NET 名称/值字典？
任何人都可以指导我使用名称/值 .NET 集合或 .NET 名称/值字典以获得最佳性能吗？请问最好的方法是什么？我的应用程序是 ASP.NET、WCF/WF Web 应用程序。每个集合应该有 10 到
php - Zend Framework 2中如何获取 Controller 名称、 Action 名称
我在 Zend Framework 2 中有一个默认模块: namespace Application\Controller; use Zend\Mvc\Controller\AbstractActi
javascript - 在 javascript 中，这是一个有效的结构吗？ : document. 名称.名称.值？
这是表格: 关于javascript - 在 javascript 中，这是一个有效的结构吗？ : document. 名称.名称.值？，我们在Stack Overflow上找到一个类似的
asp.net-mvc - 给定 htmlHelper + Action 名称，如何找出 Controller 名称？
HtmlHelper.ActionLink(htmlhelper,string linktext,string action) 如何找出正确的路线？如果我有这个=> HtmlHelper.Actio
javascript - Angular Directive(指令) > 动态 Controller 名称 > 插值 Controller 名称
我需要一些有关如何将 Controller 定义传递给嵌套在 outer 指令中的 inner 指令的帮助。请参阅http://plnkr.co/edit/Om2vKdvEty9euGXJ5qan一个
algorithm - 排行榜的高效数据结构，即记录列表(名称、积分) - 高效搜索(名称)、搜索(排名)和更新(积分)
请提出一个数据结构来表示内存中的记录列表。每条记录由以下部分组成: 用户名积分排名(基于积分)- 可选字段- 可以存储在记录中或可以动态计算数据结构应该支持高效实现以下操作: Insert(re
apache-spark - Spark : Union can only be performed on tables with the compatible column types. 结构<名称，ID> != 结构
错误 : 联合只能在具有兼容列类型的表上执行。结构(层:字符串，skyward_number:字符串，skyward_points:字符串)<> 结构(skyward_number:字符串，层:字符
scala - 名称/惰性函数的重复参数
我想要一个包含可变数量函数的函数，但我希望在实际使用它们之前不要对它们求值。我可以使用 () => type 语法，但我更愿意使用 => type 语法，因为它似乎是为延迟评估而定制的。当我尝试这样
当前本地键盘映射的 Emacs 名称？
我正在编写一个 elisp 函数，它将给定键永久绑定(bind)到当前主要模式的键盘映射中的给定命令。例如， (define-key python-mode-map [C-f1] 'pytho
r - “名称”属性的长度必须与向量的长度相同
卡在R中的错误上。 Error in names(x) <- value : 'names' attribute must be the same length as the ve
python - 正则表达式从字符串中提取用户名/名称
我有字符串，其中包含名称，有时在字符串中包含用户名，后跟日期时间戳: GN1RLWFH0546-2020-04-10-18-09-52-563945.txt JOHN-DOE-2020-04-10-1
c# - 名称 `Array'在当前上下文中不存在
有人知道为什么我会收到此错误吗？这显示将我的项目升级到新版本的Unity3d之后。 Error CS0103: The name `Array' does not exist in the curre
Delphi:从数据集中读取列数+名称？
由于 Embarcadero 的 NNTP 服务器从昨天开始就停止响应，我想我可以在这里问:我使用非数据库感知网格，我需要循环遍历数据集以提取列数、它们的名称、数量行数以及每行中每个字段的值。我知道
android - 在根项目的gradle子项目中设置Android版本代码/名称
在构建Android应用程序的子项目中，我试图根据根build.gradle中的变量设置版本代码/名称。子项目build.gradle: apply plugin: 'com.android.app
javascript - 如何在不使用硬编码字符串的情况下传递javascript属性(名称)？
示例用例: 我有一个带有属性“myProperty”的对象，具有 getter 和 setter(自 EcmaScript 5 起支持“Property Getters 和 Setters”:http

首页

博学

6Ren·AI

商城

scala - 如何更改 DataFrame 的模式(修复一些嵌套字段的名称)？