apache-spark - Hive on Spark 列出特定 Hive 表的所有分区并添加一个分区-6ren

apache-spark - Hive on Spark 列出特定 Hive 表的所有分区并添加一个分区

转载作者：行者123 更新时间：2023-12-04 04:15:10

26

4

我正在使用 spark 2.0，我想知道是否可以列出特定配置单元表的所有文件？如果是这样，我可以直接使用 spark sc.textFile("file.orc") 增量更新这些文件.
如何向配置单元表添加新分区？我可以从spark使用hive Metastore上的任何api吗？

有什么办法可以得到映射数据帧的内部hive函数row => partition_path
我的主要原因是表的增量更新。现在我想出的唯一方法是 FULL OUTER JOIN SQL + SaveMode.Overwrite ，这不是那么有效，因为他会覆盖所有表，而我的主要兴趣是某些特定分区的增量更新/添加新分区

编辑
从我在 HDFS 上看到的情况来看，当 SaveMode.Overwrite spark 会发出表定义，即 CREATE TABLE my_table .... PARTITION BY (month,..) . spark 将所有文件放在 $HIVE/my_table 下并且不在 $HIVE/my_table/month/... 之下这意味着他没有对数据进行分区。当我写 df.write.partitionBy(...).mode(Overwrite).saveAsTable("my_table")我在 hdfs 上看到它是正确的。
我用过 SaveMode.Overwrite因为我正在更新记录而不是附加数据。

我使用 spark.table("my_table") 加载数据这意味着 spark 懒惰地加载表，这是一个问题，因为我不想加载所有表只是 if 的一部分。

对于这个问题:

1.我用过partitionBy()，所以spark会打乱数据吗？ , 或者他比较当前分区，如果相同，他将不会对数据进行混洗。

2.当从数据中变异部分时，即仅针对特定的月份/年份，并应用该更改而不是加载所有数据时， Spark 是否足够聪明以使用分区修剪？ (FULL OUTER JOIN 基本上是扫描所有表的操作)

最佳答案

添加分区:

可以使用 partitionBy 从 spark 添加分区提供于 DataFrameWriter用于非流式传输或使用 DataStreamWriter对于流数据。

public DataFrameWriter<T> partitionBy(scala.collection.Seq<String> colNames)

所以如果你想通过 year 对数据进行分区和 month spark 会将数据保存到文件夹中，例如:

year=2016/month=01/
year=2016/month=02/

您提到了 orc - 您可以使用另存为 orc格式为:

df.write.partitionBy('year', 'month').format("orc").save(path)

但是您可以轻松插入到 hive 表中，例如:

df.write.partitionBy('year', 'month').insertInto(String tableName)

获取所有分区:

Spark sql 基于 hive 查询语言，所以你可以使用 SHOW PARTITIONS 获取特定表中的分区列表。

sparkSession.sql("SHOW PARTITIONS partitionedHiveTable")

只要确保你有 .enableHiveSupport()当您使用 创建 session 时SparkSessionBuilder 并确定您是否有 hive-conf.xml etc.正确配置

关于apache-spark - Hive on Spark 列出特定 Hive 表的所有分区并添加一个分区，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40267953/

26

4

0

文章推荐： unit-testing - Coldfusion - 找不到测试箱

文章推荐： python - 叶时间 slider 不会删除 map 中先前添加的标记

文章推荐： amazon-web-services - 如何在ECS Fargate任务定义中配置主机名

javascript - 列出/输出来自单个输入的逗号分隔值
如何从单个输入字段中的逗号分隔值输出列表(无论是作为单个值还是作为数组)？示例用户在文本输入字段中输入以下内容:Steve、Bruce、Matt、Natasha、Peter 结果: 史蒂夫布鲁斯
列出 Jena 中实例的对象属性
如何列出与 Jena 中的实例关联的所有对象属性？例如:Person 有一个名为“hasVehicle”的对象属性，它与类 Vehicle 相关联最佳答案合适的 Jena 方法是 OntClas
列出 Jena 中实例的对象属性
如何列出与 Jena 中的实例关联的所有对象属性？例如:Person 有一个名为“hasVehicle”的对象属性，它与类 Vehicle 相关联最佳答案合适的 Jena 方法是 OntClas
python - 'builtin_function_or_method' 列出
我知道 Python 是一种动态语言，但下面的代码让我很困扰。我有下面的简单程序，它有一些辅助函数来包装命令执行。 EventLoaderToVerticaHelper 是一个有两个方法的辅助类，所
java - 列出 ConcurrentModificationException
我有以下代码 public void saveProjects(List proj) throws DatabaseException { for (Project listItems: pr
c# - 列出<>自己的比较器
我有一个列表，其中元素是: struct element { double priority; int value;
git - 列出 pull 请求的提交
我看到对于 pull 请求的提交，根据文档最大限制为 250:List commits on a Pull Request如果 pull 请求超过 250 次提交，则建议使用另一个端点:List Co
django - 列出 django 项目的应用程序
我是 django 的新手，我想列出一个 django 项目的应用程序，例如: FeinCMS 我知道 startapp 会为应用程序创建目录结构。请问有没有函数或者文件可以获取应用列表。以Fein
hibernate - 列出 Hibernate 中使用了哪些设计模式？
你能列出所有在 Hibernate 框架中使用的设计模式吗？我了解一些设计模式，如 DAO、ORM 等。如果可能的话，一些例子。最佳答案 Hibernate 中使用的设计模式: 领域模型模式——
postgresql - 列出 postgresql 表中的所有非空约束
我正在尝试在终端中使用 psql 来查找数据库中所有可为空的列。如果我使用 select * from information_schema.check_constraints; 我得到如下信息 c
wso2 - 列出 WSO2 碳基服务器使用的管理服务？
您可以使用以下步骤列出 WSO2 碳基产品使用的所有管理服务。使用 OSGI 控制台启动服务器。转至 /bin 使用命令 shell 。 i) 例如:Linux sh wso2server.s
sql - 列出 Hibernate 中的所有表
我想列出数据库中的所有表名。我的应用程序必须独立于 DBMS。不同的 DBMS 有不同的命令来列出表，例如: PstgreSQL: SELECT * FROM pg_catalog.pg_table
emacs - 列出 emacs 中的所有顶级全局变量
主要是为了我自己的启发，我试图列出当前 Emacs session 中加载的所有全局变量。我正在考虑做的是生成一个包含所有列出的功能的 HTML 文件。当然，定义函数、var 等的文件也很有用。 em
列出 :append with list comprehensions
我如何定义 lists:append具有列表理解功能？我想要类似的东西 1> append([[1, 2, 3], [a, b], [4, 5, 6]]). [1,2,3,a,b,4,5,6] 最佳
powershell - 列出 AD 用户的组成员身份
使用以下 Powershell 代码段，我可以获取当前用户的组成员名称: $groups = [System.Security.Principal.WindowsIdentity]::GetCurre
docker - 列出 Docker 容器的卷
如何列出 Docker 容器的所有卷？我知道它应该很容易获得，但我找不到方法。另外，是否可以获取已删除容器的卷并将其删除？最佳答案您可以使用 docker ps，获取容器 ID 并写入: $ d
c++ - 列出 Win32 设备命名空间的内容
来自微软独库: The "\\.\" prefix will access the Win32 device namespace instead of the Win32 file namespace
c# - 列出 dll 中使用的命名空间
这个问题在这里已经有了答案: 9年前关闭。 Possible Duplicate: Finding all Namespaces in an assembly using Reflection (Do
cucumber - 列出 Cucumber 中所有可用的标签
是否有命令行选项可以列出您的 Cucumber 测试套件中的所有标签？例如，我想要这样的东西: cucumber --show-tags foo.feature 那会给我类似的东西: @ci @de
firebird - 列出 Firebird 数据库的所有未使用的域
有没有一种快速的方法来列出为数据库定义的所有实际上没有被任何字段使用的 Firebird 域？我有一个包含许多表和许多域的大型数据库，似乎其中很多不再使用，所以我想是时候进行清理了! 我认为这可以通过

首页

博学

6Ren·AI

商城

apache-spark - Hive on Spark 列出特定 Hive 表的所有分区并添加一个分区