hadoop - 如何将 pyspark 输出写入 impala 表？-6ren

hadoop - 如何将 pyspark 输出写入 impala 表？

转载作者：可可西里更新时间：2023-11-01 16:37:19

25

4

我将 pyspark 用于我的问题陈述，在这里，我想合并我的输出并将其作为我的其他模型的输入。但是在 hdfs 中，我的输出被分成几部分，因此很难将它们组合起来。

所以我想将输出结果直接存储到impala表中，我该怎么做呢？

最佳答案

要将存储在 HDFS 中的文件内容公开为表，您可以定义一个外部表:

CREATE EXTERNAL TABLE table_name
( column_1 string
, ... )

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE

LOCATION '/some/path/in/hdfs/';

支持不同的文件格式。该示例适用于以制表符作为列分隔符的平面文件。

如果你想改变Spark产生的文件数量，你可以在保存之前用rdd.coalesce改变RDD分区的数量。

关于hadoop - 如何将 pyspark 输出写入 impala 表？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49422774/

25

4

0

文章推荐： c++ - 如何处理 size_t 与 std::size_t？

文章推荐： c++ - 是否允许编译器评估静态断言中的重言式

文章推荐： http - CORS - 它保护什么？

impala - Impala 中无效元数据和刷新命令之间的区别？
我看到这个链接影响 Impala version 1.1 : Since Impala 1.1, REFRESH statement only works for existing tables. F
impala - 如何访问 Impala 解析器
Impala 是否重用 hive SQL 解析器？我正在尝试编写一个自定义 Java 代码来检查我的应用程序中的查询正确性。我正在寻找一个可以使用 sql 查询的 api，并让我知道它在语法上对于
impala - 使用 Impala JDBC 驱动程序指定非默认数据库
我正在使用 Impala JDBC 驱动程序(或者我猜它实际上是 Hive Server 2 JDBC 驱动程序)。我在另一个数据库中创建了一个 View ——我们称它为“store55”。假设我的
impala - 如果无效元数据可以做同样的事情，为什么需要在 Impala 中刷新
如果我创建一个表，使用 Hive，在其中插入记录并首先在 Impala 中反射(reflect)同一个表，我必须运行 Invalidate Metadata，它反射(reflect)了执行程序上的元数
impala - 列出需要失效/刷新的 Impala 表
我如何以编程方式找到所有需要 INVALIDATE METADATA 语句的 Impala 表(因为它们是在 Hive 中创建的，但 Impala 尚不知道)或 REFRESH(因为列已添加、已添加数
impala - impala 的 view 或 with 子句是否只计算一次并在查询中多次使用？
with core as ( select t1.a, t1.b, t2.c from test_1 t1 join test_2 t2 on t1.a = t
impala - Presto 和 Impala 之间的基本架构、SQL 合规性和数据使用场景差异是什么？
对于Presto和Impala的区别，有没有专家能从这些角度给出一些简洁的回答？基础架构设计 SQL 合规性真实世界的延迟任何 SPOF 或容错功能结构化和非结构化数据使用场景表现最佳答案
cloudera - 如何使用 impala-shell 或其他方式复制 cloudera impala 表？
当我显示表格时，我在 Impala 中看到一个表格“测试”；我想复制“test”表，使其完全相同，但命名为“test_copy”。我可以执行 impala 查询来执行此操作吗？如果没有，我该怎么做？
hadoop - Impala:使用load inpath加载数据时出错:AccessControlException:粘滞位拒绝了权限:user = impala
所有，我是新手，很少尝试用例。我在hdfs中有一个文件，想加载到impala表中。 -在hdfs上的文件位置:hdfs:// xxx / user / hive / warehouse / imp
r - 在没有 Impala JDBC 驱动程序的情况下从 R 连接到 Impala
由于未公开的原因，我的 Impala 没有安装 JDBC 驱动程序。这使得 connection from R to Impala具有挑战性的。我能够通过 Putty 连接(和查询)到 Impala
hadoop - 如果在 impala statestore 关闭时执行 DDL，为什么 Impala 查询会失败？
在 impala 的官方文档中 here , statestore 组件有一条语句: If you issue a DDL statement while the statestore is down
hadoop - Impala 是否支持用 Impala SQL(不是 C++ 或 Java)编写的用户定义函数？
Impala 确实支持 UDFs written in C++ or Java ，但我有一个由内置函数调用组成的简单公式。我需要在我的代码中使用很多次并且我不想重复它。是否支持类似于以下伪代码的内容
hadoop - 使用什么.. HDFS 上的 Impala 或 Hbase 上的 Impala 或只是 Hbase？
我正在处理概念验证任务。任务是使用 Hadoop 技术实现我们产品的一项功能。功能非常简单，我们有一个 UI，可让您插入有关“网络问题”的详细信息。有关此类问题的所有详细信息都被捕获并插入到 Ora
macos - 在 mac os x 上安装 cloudera impala shell 并连接到 impala 集群
我们在产品上有 impala 服务器，我需要从本地 macbook w/mac os x (10.8) 使用 impala shell 连接到它。我下载了Impala-cdh5.1.0-releas
hadoop - 在 Impala 中使用 Hive UDF 在 Impala 1.2.4 中给出错误结果
我有两个 Java 中的 Hive UDF，它们可以工作在 Hive 中非常好。这两个功能是互补的。 String myUDF(BigInt) BigInt myUDFReverso(String)
impala - 如何检查Impala表中是否存在列？
我在 Impala 中创建了一个外部表。我正在编写一个 shell 脚本，用于检查该表中是否存在特定的列。我们可以使用以下查询在 MySql 中执行此操作。 SELECT * FROM inform
impala - impala是否在查询后缓存一些数据
我是 Impala 的新手，我在 Impala 上做了一些测试用例。当我第二次调用时，我发现类似的 SQL 快得多。例如: table1 = 4B 行 table2 = 5000 万行第一次查询:
cloudera - Impala 数据局部性
我对 impala 中的数据局部性有疑问，假设我有 10 个数据节点的集群(每个数据节点上都有 impalad)，如果我在 impala 中执行查询 SELECT * FROM big_table w
impala - 如何判断一个Impala对象的名字对应一个 View
Impala 中有没有一种方法可以确定 SHOW TABLES 返回的对象名称是否存在？对应于表或 View ，因为: 该语句只返回对象名称，不返回类型 SHOW CREATE VIEW只是 SHOW
hive - Impala:像查询一样显示表
我正在使用 Impala 并使用如下所示的某种模式从数据库中获取表列表。假设我有一个数据库 bank , 该数据库下的表如下所示。 cust_profile cust_quarter1_transa

首页

博学

6Ren·AI

商城

hadoop - 如何将 pyspark 输出写入 impala 表？