apache-spark - 什么时候在 spark 中执行 REFRESH TABLE my

apache-spark - 什么时候在 spark 中执行 REFRESH TABLE my_table？

转载作者：行者123 更新时间：2023-12-04 21:04:43

43

4

考虑一个代码；

 import org.apache.spark.sql.hive.orc._
 import org.apache.spark.sql._

 val path = ...
 val dataFrame:DataFramew = ...

 val hiveContext = new org.apache.spark.sql.hive.HiveContext(sparkContext)
 dataFrame.createOrReplaceTempView("my_table")
 val results = hiveContext.sql(s"select * from my_table")
 results.write.mode(SaveMode.Append).partitionBy("my_column").format("orc").save(path)
 hiveContext.sql("REFRESH TABLE my_table")

此代码使用相同的路径但不同的数据帧执行两次。第一次运行成功，但随后出现错误:

Caused by: java.io.FileNotFoundException: File does not exist: hdfs://somepath/somefile.snappy.orc
It is possible the underlying files have been updated. You can explicitly invalidate the cache in Spark by running 'REFRESH TABLE tableName' command in SQL or by recreating the Dataset/DataFrame involved.

我试图清理缓存，调用 hiveContext.dropTempTable("tableName")并且都没有效果。何时调用 REFRESH TABLE tableName之前，之后(其他变体)修复此类错误？

最佳答案

您可以运行 spark.catalog.refreshTable(tableName)或 spark.sql(s"REFRESH TABLE $tableName")就在写操作之前。我有同样的问题，它解决了我的问题。

spark.catalog.refreshTable(tableName)
df.write.mode(SaveMode.Overwrite).insertInto(tableName)

关于apache-spark - 什么时候在 spark 中执行 REFRESH TABLE my_table？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49234471/

43

4

0

文章推荐： google-cloud-pubsub - PubSub 会自动生成时间戳吗？

文章推荐： axios - 将图片从数据 url 上传到 Axios？

文章推荐： firefox - 创建 Mozilla Firefox 的自定义构建

django - Django SELECT(1)AS [a]从[my_table]到([my_table]。[id] =？AND NOT([my_table]。[id] =？))(1，1)
Django为什么执行这样的语句: SELECT (1) AS [a] FROM [my_table] WHERE ([my_table].[id] = ? AND NOT ([my_table].
mysql - 无法在 FROM 子句中指定更新目标表 'my_table'
我正在尝试创建一个 SQL 触发器，它在更新表后将执行一段 SQl 来再次更新它我有 5 个可以更新的字段，每个字段都包含 0 或 1: step1_complete, step2_complete
mysql - 更新 my_table 不能正常工作
我正在使用以下查询将旧链接替换为新链接: UPDATE my_table SET file = 'link' WHERE my_table.file ='old_link'; 在我的测试中，我无法复制
MySQL - 表 'my_table' 未使用锁定表锁定
我尝试通过 MySQL 加载表并得到以下错误？ MySQL said: Table 'cms' was not locked with LOCK TABLES 为什么需要锁定表？我以前没见过这个？有什
sql - 函数显示错误 "relation my_table does not exist"
我创建了一个函数来生成发票编号，但是当我这样做时: select get_generated_kodesj() 它显示错误: relation "transpending_h" does not ex
sql - pg_dump 与 COPY (SELECT * FROM my_table)
我需要将表的内容从一个数据库复制到另一个具有相同表的数据库，该表当前为空。我打算转储旧表中的表数据，然后简单地将其导入到新数据库中的空表中。但是，我在使用 pg_dump 时遇到了一些我不理解的行为
mysql - hibernate生成错误的sql "select max(id) from my_table"
我用 Hibernate 做了一个小应用程序。仅来自 HB 网站提供的样本。 Hibernate 对 DB 说: drop table if exists some_db.my_table creat
sql - SELECT FROM my_table WHERE A=5 OR B=5;
SELECT FROM my_table WHERE A=5 OR B=5; 假设值 (A,B) 是: 1,5 2,5 5,3 5,4 SELECT的结果应该 1 2 3 4 换句话说，我需要来自另
coding-style - 是否有更易读的方式为k，v成对编写(my_table)…如果我从不使用k，则以lua结尾？
lua中是否有更易读的方式编写: for k, v in pairs(my_table) do myfunction( v ) end 我从不使用k，因此我想将其从循环控制中删除，因此很明显，
sql-server - 更改表 my_table 添加 @column INT
如果我想使用变量作为新列的名称，这在 MS SQL 中可行吗？不起作用的示例: ALTER TABLE my_table ADD @column INT 这对我来说非常有用: EXEC ('ALTE
PHP mysqli SELECT * 来自 my_table WHERE id = array_of_ids
我已经使用这个网站很多年了，这是我第一次在这里提问，所以现在有点害怕:D 这就是我的问题，我有两个表。在 table_a 中我有三列，在 table_b 中我有 5 列。所以现在的设置看起来像这样:
apache-spark - 什么时候在 spark 中执行 REFRESH TABLE my_table？
考虑一个代码； import org.apache.spark.sql.hive.orc._ import org.apache.spark.sql._ val path = ... val
mysql - mysql中 `use my_db`和 `my_db.my_table`有什么区别？
我们在一个实例中有很多数据库。我们的查询语言是: use db1; select * from table1; use db2; select * from table2; 但是当我们改成这种风格后
python - django.db.utils.OperationalError : my_table has no column id error?
我正在测试我的 Django 应用程序的 models.py 文件:我的 Python 解释器中的“myapp”，但一直遇到此错误: django.db.utils.OperationalError:
java - JPA查询: how to use select * from my_table where created_at > now() - INTERVAL '3 months' ?
如何添加条件为 created_at > now() - INTERVAL '3month' 的 where 子句？ JPA 实体列: @Column(name = "created_at") @Cr
google-bigquery - "CREATE TABLE my_table (LIKE your_table)"的 BigQuery 等效项
我想创建一个表，其架构与另一个表完全相同。在其他 SQL 引擎中，我想我可以使用“CREATE TABLE my_table (LIKE your_table)”或一些变体。我还没有在 BigQue
php - 从 my_table 中选择 avg(unit_cost)，其中运行总和(数量)< '$someNumber'
使用PHP与SQL数据库交互 sql表相关列:编号 |产品 ID |数量 |单位成本我想要实现的目标:当我输入新行时，老板有时会想知道例如最后 10,000 个单位的平均单位成本。我如何写一些东西
mysql - 在 MyISAM 表上执行 `ALTER TABLE my_table ENGINE InnoDB` 没有任何效果。为什么？
我想将表从 MyISAM 更改为 InnoDB。我执行了 ALTER TABLE database_name.table_name ENGINE = InnoDB; 终端中的 mysql shell
mysql - 如何在 SQL 中 SELECT MAX(column) as max_value FROM my_table WHERE some_other_column = "something"
下面是我的 SQL 表。我正在尝试获取 time 的最大值，其中 to_address 是 dfhuih。我试过: SELECT MAX(time) as max_time FROM transac
postgresql - 尝试使用 Diesel 插入值时出现 "expected struct String, found struct schema::my_table::columns::my_column"
我正在尝试使用 Diesel 执行插入多列操作使用 PostgreSQL。这是添加新的 Project 的插入函数 - pub fn insert(project: NewProject, prog

首页

博学

6Ren·AI

商城

apache-spark - 什么时候在 spark 中执行 REFRESH TABLE my_table？