apache-spark - 读取拼花文件时刷新 Dataframe 的元数据-6ren

apache-spark - 读取拼花文件时刷新 Dataframe 的元数据

转载作者：行者123 更新时间：2023-12-04 04:17:03

27

4

我正在尝试将 Parquet 文件作为将定期更新的数据框读取(路径为 /folder_name 。每当新数据出现时，旧 Parquet 文件路径( /folder_name )将被重命名为临时路径，然后我们将两者结合起来新数据和旧数据将存储在旧路径中(/folder_name)

发生的情况是假设我们有一个 Parquet 文件 hdfs://folder_name/part-xxxx-xxx.snappy.parquet更新前和更新后更改为 hdfs://folder_name/part-00000-yyyy-yyy.snappy.parquet
发生的问题是当我尝试在更新完成时读取 Parquet 文件时

sparksession.read.parquet("filename") => 它采用旧路径 hdfs://folder_name/part-xxxx-xxx.snappy.parquet (路径存在)

当对数据帧调用操作时，它会尝试从 hdfs://folder_name/part-xxxx-xxx.snappy.parquet 读取数据但是由于更新，文件名发生了变化，我遇到了以下问题

java.io.FileNotFoundException:文件不存在:hdfs://folder_name/part-xxxx-xxx.snappy.parquet底层文件可能已更新。您可以通过在 SQL 中运行“REFRESH TABLE tableName”命令或通过重新创建所涉及的数据集/数据帧来显式地使 Spark 中的缓存无效。

我正在使用 Spark 2.2

谁能帮助我如何刷新元数据？

最佳答案

当您尝试读取不存在的文件时会发生该错误。

如果我错了，请纠正我，但我怀疑您在保存新数据帧时覆盖了所有文件(使用 .mode("overwrite") )。在此进程运行时，您正在尝试读取已删除的文件并抛出该异常 - 这使得该表在一段时间内(更新期间)不可用。

据我所知，没有你想要的“刷新元数据”的直接方法。

解决这个问题的两种(几种可能的)方法:

1 - 使用附加模式

如果您只想将新数据帧附加到旧数据帧，则无需创建临时文件夹并覆盖旧文件夹。您可以将保存模式从覆盖更改为追加。通过这种方式，您可以将分区添加到现有 Parquet 文件中，而无需重写现有分区。

df.write
  .mode("append")
  .parquet("/temp_table")

这是迄今为止最简单的解决方案，无需读取已存储的数据。但是，如果您必须更新旧数据(例如:如果您正在执行更新插入)，这将不起作用。为此，您有选项 2:

2 - 使用 Hive View

您可以创建配置单元表并使用 View 指向最新的(和可用的)表。

以下是此方法背后逻辑的示例:

第 1 部分

如果查看 <table_name>不存在我们创建一个名为的新表<table_name>_alpha0存储新数据

创建表后
我们创建一个 View <table_name>如

select * from
<table_name>_alpha0

第 2 部分

如果查看 <table_name>存在我们需要查看它指向哪个表 (<table_name>_alphaN)

您对新数据执行所有您想要的操作，将其保存为名为 <table_name>_alpha(N+1) 的表。

创建表后，我们更改 View <table_name>至 select * from <table_name>_alpha(N+1)

和一个代码示例:

import org.apache.spark.sql.{DataFrame, Row, SparkSession}
import org.apache.spark.sql.types._
import spark.implicits._


//This method verifies if the view exists and returns the table it is pointing to (using the query 'describe formatted')

def getCurrentTable(spark: SparkSession, databaseName:String, tableName: String): Option[String] = {
  if(spark.catalog.tableExists(s"${databaseName}.${tableName}")) {

    val rdd_desc = spark.sql(s"describe formatted ${databaseName}.${tableName}")
      .filter("col_name == 'View Text'")
      .rdd

    if(rdd_desc.isEmpty()) {
      None
    }
    else {
      Option(
        rdd_desc.first()
          .get(1)
          .toString
          .toLowerCase
          .stripPrefix("select * from ")
      )
    }
  }
  else
    None
}

//This method saves a dataframe in the next "alpha table" and updates the view. It maintains 'rounds' tables (default=3). I.e. if the current table is alpha2, the next one will be alpha0 again.

def saveDataframe(spark: SparkSession, databaseName:String, tableName: String, new_df: DataFrame, rounds: Int = 3): Unit ={
  val currentTable = getCurrentTable(spark, databaseName, tableName).getOrElse(s"${databaseName}.${tableName}_alpha${rounds-1}")
  val nextAlphaTable = currentTable.replace(s"_alpha${currentTable.last}",s"_alpha${(currentTable.last.toInt + 1) % rounds}")

  new_df.write
    .mode("overwrite")
    .format("parquet")
    .option("compression","snappy")
    .saveAsTable(nextAlphaTable)

  spark.sql(s"create or replace view ${databaseName}.${tableName} as select * from ${nextAlphaTable}")
}

//An example on how to use this:

//SparkSession: spark
val df = Seq((1,"I"),(2,"am"),(3,"a"),(4,"dataframe")).toDF("id","text")
val new_data = Seq((5,"with"),(6,"new"),(7,"data")).toDF("id","text")
val dbName = "test_db"
val tableName = "alpha_test_table"

println(s"Current table: ${getCurrentTable(spark, dbName, tableName).getOrElse("Table does not exist")}")
println("Saving dataframe")

saveDataframe(spark, dbName, tableName, df)

println("Dataframe saved")
println(s"Current table: ${getCurrentTable(spark, dbName, tableName).getOrElse("Table does not exist")}")
spark.read.table(s"${dbName}.${tableName}").show

val processed_df = df.unionByName(new_data) //Or other operations you want to do

println("Saving new dataframe")
saveDataframe(spark, dbName, tableName, processed_df)

println("Dataframe saved")
println(s"Current table: ${getCurrentTable(spark, dbName, tableName).getOrElse("Table does not exist")}")
spark.read.table(s"${dbName}.${tableName}").show

结果:

Current table: Table does not exist
Saving dataframe
Dataframe saved
Current table: test_db.alpha_test_table_alpha0
+---+---------+
| id|     text|
+---+---------+
|  3|        a|
|  4|dataframe|
|  1|        I|
|  2|       am|
+---+---------+

Saving new dataframe
Dataframe saved
Current table: test_db.alpha_test_table_alpha1
+---+---------+
| id|     text|
+---+---------+
|  3|        a|
|  4|dataframe|
|  5|     with|
|  6|      new|
|  7|     data|
|  1|        I|
|  2|       am|
+---+---------+

通过这样做，您可以保证 View 版本 <table_name>将永远可用。这也具有维护表的先前版本的优点(或不具有，取决于您的情况)。即 <table_name_alpha1> 的先前版本将是 <table_name_alpha0>
3 - 奖金

如果可以选择升级 Spark 版本，请查看 Delta Lake (最低 Spark 版本:2.4.2)

希望这可以帮助 :)

关于apache-spark - 读取拼花文件时刷新 Dataframe 的元数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58762158/

27

4

0

文章推荐： sql - 选择不同的返回重复项

文章推荐： unit-testing - 测试 grails 数据绑定(bind)

文章推荐： unit-testing - MSTest 内存不足异常

文章推荐： ipad - iPad 上的数字键盘？

java - hibernate 批量更新后清除 session 、刷新、刷新？
我们知道，当使用 hibernate 对数据库进行批量更新时(即使在 HQL 中)，所做的更改不会复制到存储在当前 session 中的实体。所以我可以调用 session.refresh 来加载对
Selenium 刷新
我正在做一个项目，所有的东西都保存在事件中，所以服务器需要一些时间来响应新数据。我正在使用 Fluent 等待使用 ajax 的页面，但是这个不使用任何 ajax。所以我想刷新页面检查是否有新项目，如
刷新 Jtable
我有一个从 Vector 创建的 JTable。如何刷新 JTable 以显示添加到 Vector 的新数据？最佳答案当 TableModel 发生更改时，您的 JTable 应该会自动更新。我
JavaScript 刷新
有没有办法使用下面的代码来刷新已经存在的 div id，而不是刷新时间？ window.onload = startInterval; function startInterval() {
刷新 Shiny 的数据集
我更新了在 Shiny Server 上运行的 Shiny 应用程序使用的 DataSet.RData。但是， Shiny 的应用程序仍在旧数据上运行。我已通过浏览器历史记录清除并重新启动浏览器几次，
无限滚动网格面板的 ExtJs 刷新
我的应用程序中有一个无限滚动的网格面板(ExtJs 4.2.1)，类似于 this example .用户可以单击刷新按钮，然后必须使用数据库中的数据更新网格的行。我在刷新按钮处理程序中调用 stor
delphi - 刷新、更新和重画之间有什么区别？
我不知道这三种方法中哪一种最适合我。他们都为我工作。有谁知道刷新、更新和重画之间的区别吗？最佳答案根据在线文档: Refresh - 重新绘制屏幕上的控件。 Call Refresh method
WPF ICollectionView 刷新
有什么办法吗 ICollectionView.Refresh() 或者 CollectionViewSource.GetDefaultView(args.NewValue).Refresh(); 在
javascript - 更改查询字符串而不重新加载/刷新
这个问题已经有答案了: Updating address bar with new URL without hash or reloading the page [duplicate] (4 个回答)
javascript - setTimeout 刷新
我有一个 javascript 设置超时以在 10 秒后关闭 div，并且我想在 div 关闭时添加页面刷新。我正在使用的代码如下。 var container_close_sec = "1
php - 在多个页面之间循环(刷新)？
我有一组具有以下名称的页面.... update1.php update2.php update3.php update4.php update5.php update6.php update7.ph
php - 刷新/提交后保持选中状态的复选框以及
如果是则触发js函数。我可以使一个复选框保持选中状态，并在页面刷新时检查值并选中“checked”，并提交以下内容... checked="checked" /> 你都不记得触发js函数。这是我的
Javascript div 刷新
我正在尝试刷新 php 脚本以在数据库更新时显示更新的内容。我首先构建了我的 php，然后刷新代码，然后合并它们。但是，脚本不会更新。有谁知道为什么吗？ $(document).ready
hibernate - 如何使域实例关联无效/刷新？
当我要删除的节点扩展集合类型时，Grails中有一个错误阻止我使用removeFrom *。直接从关联中删除节点不会更新二级缓存。 A hasMany B 有什么方法可以使关联缓存手动无效或强制重新加
java - hibernate 刷新？
我正在使用 hibernate 和 mysql 来抽象一个数据库，以便在 java 驱动的网站中使用。我使用 hibernate 很好地解决了所有查询，但似乎无法弄清楚如何使用它进行更新、插入和删除，
java - 刷新 fragment
如何通过调用 oncreateview 方法重新创建 fragment ？我有一个 fragment ，用于通过表单插入新数据，单击按钮后，我想通过删除在 EditText 中输入的数据来重新创建 f
iphone - 刷新 View
当我从一个到另一个时，我试图刷新我的观点。我知道我应该将刷新代码放在 viewWillAppear 中，但我不知道该放什么代码。你们能帮帮我吗？谢谢! 最佳答案在您看来，请调用 setNeeds
flush - NSOutputStream 刷新
我正在开发 iPhone 应用程序并希望使用: CFStreamCreatePairWithSocketToHost(NULL, url, port, &serverReadStream, &serv
PHP session 刷新!
看到我已经创建了一个用于登录用户的脚本。而且我还添加了设置选项卡，以便用户可以编辑他们的设置!但是当我尝试它时，mysql 表中的数据发生了变化，但配置文件中显示的用户名和用户电子邮件保持不变!当我注
javascript - 在没有本地存储的情况下存储数据或只执行一次操作(刷新)
好的。这就是它的样子。当我启动应用程序时，我从服务器收到的第一件事是数据: {name: "test", type: "checkbox" checked: true, } 这使得其中一个复选框

首页

博学

6Ren·AI

商城

apache-spark - 读取拼花文件时刷新 Dataframe 的元数据