hadoop - Parquet API 没有Keys 的概念？-6ren

hadoop - Parquet API 没有Keys 的概念？

转载作者：可可西里更新时间：2023-11-01 14:29:00

25

4

好的，所以在获得关于无法通过 spark 将 key 写入 parquet 文件的异常之后，我查看了 API 并仅找到了这个。

public class ParquetOutputFormat<T> extends FileOutputFormat<Void, T> {....

(我的假设可能是错误的 =D，某处可能还有另一个 API。)

好吧，这有一些扭曲的意义，毕竟你可以在数据从容器文件中具体化时投影/限制数据。不过，只是为了安全起见。 Parquet 文件没有序列文件“键”值的概念，对吗？

我觉得这有点奇怪，Hadoop 基础架构是围绕一个序列文件可能有一个 key 这一事实构建的。而且我假设这个 key 被自由地用于将数据分区为局部性的 block (而不是在 HDFS 级别 ofc)？ Spark 有很多 API 调用，这些 API 调用与代码一起进行归约和连接等。现在我必须执行额外的步骤来将键从物化对象的主体映射出来。很奇怪。

那么，为什么 key 在 Parquet 世界中不是一等公民，有什么充分的理由吗？

最佳答案

你是对的。 Parquet 文件不是键/值文件格式。这是一种柱状格式。您的“键”可以是表格中的特定列。但它不像 HBase，在那里你有一个真正的关键概念。 Parquet 不是序列文件。

关于hadoop - Parquet API 没有Keys 的概念？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21662663/

25

4

0

文章推荐： java - Hbase 按列限定符排序

文章推荐： windows - 没有密码的 CreateProcessAsUser 和 LogonUser

.net - 尽管我了解大多数 OOP 概念，但我无法清晰地描绘实现 OOP 概念。为什么？
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题？ Update the question所以它是on-topic对于堆栈溢出。 10年前关闭。 Improve this qu
android - Android 是否有 MasterPage 概念，如 .NET 或 Struts 中的 Tiles 概念，以在所有页面上添加页眉？
我正在开发一个 Android 应用程序。在此应用程序中， Logo 栏显示在所有页面( Activity )上，或者我们可以说它在所有页面上都有标题。这个 Logo 栏有几个图标，如主页、登录、通知
Hadoop 概念
我正在使用 hadoop 使用开源接口(interface) HVPI 处理视频。然而，inputsplit 的实现，更准确地说是在 isSplitableobContext (context, Pa
新手入门Mysql--概念
1. 是什么？ MySQL 是最流行的关系型数据库管理系统，在 WEB 应用方面 MySQL 是最好的 RDBMS(Relational Database Management System
检查需求值的 C++ 概念
有没有办法使用 c++20s 的概念来检查一个值是否满足某些要求？假设我正在编写某种使用分页的容器，并且我想让页面大小成为模板参数。 template class container; 我可以使用带
Java ArrayList 概念
如何在 ArrayList 中循环遍历 ArrayList？例如，如果我有一个名为 Plants of Plant 对象的 ArrayList。每个 Plant 对象内部都有一个随机数量的花名。我如
c++ - 如何在UML类图中绘制C++概念？
如何在UML类图中绘制C++概念？具体来说，我有以下代码: template concept Printable = requires(T a, std::ostream &where) {
使用历史对象的 Javascript 概念
我有兴趣制作一个网站，在访问者访问时闪现整个网络历史记录。我计划使用 JavaScript 来获取每个观看者计算机上的历史记录，并根据他们拥有的内容以不同的速度对其进行动画处理。我的想法是使用 his
c++ - 概念-如何限制积分模板值
有一个模板定义，例如: template void foo( void ) { /* ... */ } 如何定义一个概念，以便N必须为非零正值(N> = 1)？就像是: template con
封装和抽象 OOP 概念
封装是信息隐藏还是导致信息隐藏？正如我们所说，封装将数据和函数绑定(bind)在单个实体中，因此它为我们提供了对数据流的控制，并且我们只能通过一些定义良好的函数来访问实体的数据。因此，当我们说封装导
C++ 概念 - 我可以有一个要求类中存在函数的约束吗？
下面有一个简单的代码片段，它使用以下方式进行编译: g++-9 -std=c++2a -fconcepts 这是试图定义一个需要存在函数的概念。我希望输出是"is"，但事实并非如此……知道为什么吗？谢
复合赋值运算符的 C++ 概念
我有一个普通二元运算符的概念 template concept is_binary_operation = requires (const T& t1, const T& t2) // e.g
c++ - 如何为启发式函数编写C++概念
我正在c++ 20中实现具有启发式功能的搜索算法。我试图用类似这样的概念来约束我的算法可以使用的功能: template concept Heuristic = requires(SelfType
sas - 解释SAS读取数据步骤的顺序(概念)
我需要了解 SAS 如何读取/执行数据步骤。当我查找有关 SAS 如何读取数据步骤的信息时，我似乎只找到有关它如何读取以进行合并的信息，我不了解与常规数据步骤相关的信息。比方说，我有这行代码: dat
java - 关于框架(概念)
最近我看到一个关于“框架”的问题，如果“框架”有不同的类型或概念。那么，存在不同“类型”的“框架”吗？例如:NodeJS 是一种“类型”(概念)，而 Hibernate ORM 是另一种“类型”(概
php - cookies 概念
如何使用任何技术禁用或清除客户端浏览器 Cookie 我认为使用 javascript 可以用于任何技术最佳答案 var cookies = document.cookie.split(";");
javascript - 概念 - 单击链接时保持对当前页面的关注？
我正在使用 target = "_blank" 单击链接时生成新选项卡。但是，浏览器会将焦点移至该选项卡。有没有办法让焦点保持在当前标签页上？回答摘要基本上，只需发送一个模拟控件点击的当前事件。
Android 如何请求其他用户的操作或批准 - 概念
我正在尝试在我的 android/firebase(cloud firestore) 应用程序上添加一项需要其他用户批准/拒绝的功能。例如，当 Air&BnB 上的用户想要预订一个地方时，所有者必须批
php - 概念 - 组织数据库
这个问题在这里已经有了答案: mysql_fetch_array()/mysql_fetch_assoc()/mysql_fetch_row()/mysql_num_rows etc... expec
Java OOP 概念
public class MyClass { public static void main(String[] args) { System.out.println("Hell

首页

博学

6Ren·AI

商城

hadoop - Parquet API 没有Keys 的概念？