hadoop - Hive 数据和 Metastore 是如何相互通信和集成的？-6ren

hadoop - Hive 数据和 Metastore 是如何相互通信和集成的？

转载作者：可可西里更新时间：2023-11-01 16:27:47

26

4

我是 hive/hadoop 的新手。我阅读/观看了与 hive、hdfs、hadoop 如何在内部工作相关的文档和视频。但是我仍然无法立即理解一些事情。 w.k.t Hive 数据作为文件存储在 hdfs 中，表结构(模式)存储在 Metastore 中。

因为，在查询执行期间，配置单元是只读模式，数据和模式相互集成并产生结果。请确认我对这个说法的理解是否正确？
正如陈述 1 告诉我们的整合，整合是如何发生的？就像存储在 hdfs 中的文件(实际数据)没有模式权限。 mapreduce/hadoop/hive 如何知道“存储在文件中的特定数据”属于“表的特定列”。不会有数据不匹配吗？

我认为配置单元数据文件看起来像，

students.txt
-------------
1 abc m@gmail.com
-------------------
2 xyz@ymail.com
---------------

上述文件不存储架构。因此，对于 s_id 为 2 的学生，不会存储姓名。那些东西是怎么捕获的？什么时候执行查询？我认为 xyz@gmail.com 不会集成到 student_name 字段下。但仍然想知道集成是如何发生的？

最佳答案

您对“Hive 数据作为文件存储在 hdfs 中，表结构(模式)存储在 Metastore 中”的理解。是正确的。但除了模式之外，Metastore 还具有存储表数据的 HDFS 目录详细信息。此 HDFS 路径信息由查询在执行时使用。

你的理解和我的验证/答案:

因为，在查询执行期间，配置单元是只读模式，数据和模式相互集成并产生结果。请确认我对这个说法的理解是否正确？

回答:正确

正如陈述 1 告诉我们的整合，整合是如何发生的？就像存储在 hdfs 中的文件(实际数据)没有模式权限。 mapreduce/hadoop/hive 如何知道“存储在文件中的特定数据”属于“表的特定列”。不会有数据不匹配吗？

回答:

存储在 HDFS 上的文本文件等文件是表的一部分，其中没有结构或列名，只有数据。但是，当创建表时，我们必须清楚地提及列以及它们如何存储在文本文件中。假设 2 列和逗号分隔的数据将有如下查询，

create table default.column_test 
(name string,
email string)
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ','

因此数据文件，即存在于 HDFS 路径中的文本文件应具有以下格式的数据。

alpha,alpha@email.com
beta,beta@email.com

当使用 SELECT 查询从该表中查询数据时，查询将首先被编译，并且将对从 Hive Metastore 派生的 HDFS 路径中的数据执行。

SELECT * FROM column_test;

    column_test.name    column_test.email

1   Alpha               alpha@email.com
2   Beta                beta@email.com

如果文件中的数据没有列名的值，(如下所示)

alpha@email.com
beta,beta@email.com

然后 SELECT 查询会将“alpha@email.com”视为“name”列的值，并将返回 NULL 作为第一个记录的“email”列的值。输出将如下所示，

SELECT * FROM column_test;

    column_test.name    column_test.email

1   alpha@email.com     NULL
2   Beta                beta@email.com

希望对您有所帮助!

关于hadoop - Hive 数据和 Metastore 是如何相互通信和集成的？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55452857/

26

4

0

文章推荐： c++ - 使用ofstream缓冲文本输出以获得性能

文章推荐： angularjs - PUT/DELETE 出现 403 错误，但 GET/POST 有效

文章推荐： c++ - 线程安全的 cout 技术。我错过了什么吗？

文章推荐： angular - 如何通过间隔运算符发送请求？

C++ 相互 header 包含和前向声明
这个问题已经有答案了: Resolve build errors due to circular dependency amongst classes (12 个回答) 已关闭 3 个月前。如何允许
java - 多个组件 "linked"相互
让 2 个 Swing 部件做同样的工作是很常见的。例如，我们可以在工具栏中使用一个 button 作为“保存”按钮，而 JMenuItem (文件保存...)也可以做同样的事情。我的问题是: 有没
Android 相互 fragment 化
我使用 fragment 已经有一段时间了，但我经常遇到一个让我烦恼的问题。 fragment 有时会相互吸引。现在，我设法为此隔离了一个用例，它是这样的: Add fragment A(也使用 ad
WCF 相互 SSL 安全什么时候使用什么证书？
我正在使用具有相互 SSL 安全性的 WCF 服务，我想检查一下我对何时使用什么证书的理解。这是正确的吗？客户端将客户端公共(public)证书交给服务器服务器将服务器公共(public)证书交
security - 相互 SSL - 多少身份验证就足够了？
假设您有一个相互 SSL 服务，除了 SSL 之外，它还有应用程序身份验证。因此，客户端提供证书(以及服务器)，但客户端请求(例如 REST 请求)还包含后端应用程序服务器用于验证的用户名/密码。就
多个设备上的 Android UiAutomator，相互 react
有人让 Android uiautomator 可以同时在多个设备上运行，但做不同的事情吗？我的意思是，我希望我的测试同时启动设备和应用程序，然后设备 A 执行设备 B 必须使用react的操作。这
python - 相互 TLS 身份验证 - SSLV3_ALERT_UNSUPPORTED_CERTIFICATE
我目前正在尝试在客户端和服务器之间实现双向 TLS 身份验证。我遇到了一个 SSL 错误，它的描述性不强。 StackOverflow 也没有太多与之相关的问题，因为大多数时候它是互联网上的单向 TL
javascript - 多个 slider 相互 react
这里是新手。我正在做我的第一个元素，我想为不同的人(普通人、 worker 、农民等)提供 slider ，但我不知道如何放置多个 slider 以及如何让它们全部工作。我从 W3schools 获取
jquery - 如何阻止我的内部 div 相互 float
我创建了一张翻转卡片，但卡片内的所有 div 似乎都浮在彼此之上。我希望 div 彼此相邻。我看了很多问题，但似乎找不到答案。我尝试了多种显示:内联；职位:相对；向左飘浮;清除:两者；但我似乎无法让
jquery - 使多个 div 相互 float
我正在使用此控件来安排时间。我有一个单选按钮列表，然后是多个内容 Pane 。根据内容，我想在正确的控件中淡入淡出。但出于某种原因，在 div 上放置一个 float 并设置 z-index 并不能使
ssl - Wireshark 解密 SSL 相互
有什么方法可以解密双向 SSL(客户端和服务器，两种方式)？我找到了这个链接:https://www.wireshark.org/lists/wireshark-users/201001/msg00
security - 相互 SSL 与基于 token 的身份验证
我正在开发一个 Web 应用程序，安全性是我们在此应用程序中的主要关注点之一。我正在查看不同的 API 安全方法(在 OWASP 中提到)，无法理解相互 SSL 身份验证和基于 token 的身份验证
Kubernetes pod 无法使用 ClusterIP 相互 ping 通
我正在尝试使用分配给 kube-dns 服务的集群 IP 从 dnstools pod ping kube-dns 服务。 ping 请求超时。在同一个 dnstools pod 中，我尝试使用暴露的
c# - .NET 相互 SSL 握手 'Client Authentication'
过去几天我一直在研究这个问题，但我一无所获。场景是: 现场的 iOS 应用程序将调用我的 REST 服务 (.NET)。我的 REST 服务将使用相互 SSL 握手调用 Apache Web 服务。
java - 多个 JSlider 相互 react 始终等于 100%
我正在尝试向 java swing 应用程序添加 3 个 JSlider，以便三个 slider 的总值(value)总和为 100。每个 slider 都是一个概率， slider A 是将值添加到
java - 相互 SSL - 使用 java 作为客户端时，客户端证书链为空
我们正在使用 java 客户端(openJDK 1.8.0) 调用需要相互身份验证的 api。为此，我们使用 Java 标准 JKS 文件作为 keystore 和信任库(包含信任证书和身份证书/私钥
java - 相互 SSL : unsupported_certificate and client certificate format
有人告诉我使用双向身份验证连接到客户的服务器。服务器身份验证工作顺利，但我们在获取客户端身份验证方面遇到了巨大的麻烦。让我试着解释一下我们的麻烦。前段时间我公司在 GeoTrust 购买了一个证书，
authentication - Paw - 支持 https 相互(客户端证书)身份验证？
正在试用 PAW 并且非常喜欢它。我唯一无法正常工作的是使用 HTTPS 相互身份验证。我需要与之交互的一些 API 需要相互验证的 https。如何告诉 PAW 使用证书进行身份验证？该证书已经在
spring - cxf 相互 SSL 配置外部化 key 和密码以使用 JNDI
我们有一个在 Jboss EAP 5.1 中部署并使用 Spring 2.5 已经运行了一年多的 CXF webservice 我们现有的客户证书管理策略如下: 对于非 PROD，证书名为“NAME-
c# - 相互 SSL 身份验证 - sslstream 中的本地证书返回 'null' 而不是客户端上的证书
我正在创建一个将调用 API 的 Windows 服务。对于这个过程，我正在尝试建立相互(双向)SSL 身份验证。因为我是新手。我尝试实现一个简单的客户端和服务器项目，它们将相互进行身份验证。我已经

首页

博学

6Ren·AI

商城

hadoop - Hive 数据和 Metastore 是如何相互通信和集成的？