- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我是 hive/hadoop 的新手。我阅读/观看了与 hive、hdfs、hadoop 如何在内部工作相关的文档和视频。但是我仍然无法立即理解一些事情。 w.k.t Hive 数据作为文件存储在 hdfs 中,表结构(模式)存储在 Metastore 中。
因为,在查询执行期间,配置单元是只读模式,数据和模式相互集成并产生结果。请确认我对这个说法的理解是否正确?
正如陈述 1 告诉我们的整合,整合是如何发生的?就像存储在 hdfs 中的文件(实际数据)没有模式权限。 mapreduce/hadoop/hive 如何知道“存储在文件中的特定数据”属于“表的特定列”。不会有数据不匹配吗?
我认为配置单元数据文件看起来像,
students.txt
-------------
1 abc m@gmail.com
-------------------
2 xyz@ymail.com
---------------
上述文件不存储架构。因此,对于 s_id 为 2 的学生,不会存储姓名。那些东西是怎么捕获的?什么时候执行查询?我认为 xyz@gmail.com 不会集成到 student_name 字段下。但仍然想知道集成是如何发生的?
最佳答案
您对“Hive 数据作为文件存储在 hdfs 中,表结构(模式)存储在 Metastore 中”的理解。是正确的。但除了模式之外,Metastore 还具有存储表数据的 HDFS 目录详细信息。此 HDFS 路径信息由查询在执行时使用。
你的理解和我的验证/答案:
回答:正确
回答:
存储在 HDFS 上的文本文件等文件是表的一部分,其中没有结构或列名,只有数据。但是,当创建表时,我们必须清楚地提及列以及它们如何存储在文本文件中。假设 2 列和逗号分隔的数据将有如下查询,
create table default.column_test
(name string,
email string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
因此数据文件,即存在于 HDFS 路径中的文本文件应具有以下格式的数据。
alpha,alpha@email.com
beta,beta@email.com
当使用 SELECT 查询从该表中查询数据时,查询将首先被编译,并且将对从 Hive Metastore 派生的 HDFS 路径中的数据执行。
SELECT * FROM column_test;
column_test.name column_test.email
1 Alpha alpha@email.com
2 Beta beta@email.com
如果文件中的数据没有列名的值,(如下所示)
alpha@email.com
beta,beta@email.com
然后 SELECT 查询会将“alpha@email.com”视为“name”列的值,并将返回 NULL 作为第一个记录的“email”列的值。输出将如下所示,
SELECT * FROM column_test;
column_test.name column_test.email
1 alpha@email.com NULL
2 Beta beta@email.com
希望对您有所帮助!
关于hadoop - Hive 数据和 Metastore 是如何相互通信和集成的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55452857/
这个问题已经有答案了: Resolve build errors due to circular dependency amongst classes (12 个回答) 已关闭 3 个月前。 如何允许
让 2 个 Swing 部件做同样的工作是很常见的。例如,我们可以在工具栏中使用一个 button 作为“保存”按钮,而 JMenuItem (文件保存...)也可以做同样的事情。 我的问题是: 有没
我使用 fragment 已经有一段时间了,但我经常遇到一个让我烦恼的问题。 fragment 有时会相互吸引。现在,我设法为此隔离了一个用例,它是这样的: Add fragment A(也使用 ad
我正在使用具有相互 SSL 安全性的 WCF 服务,我想检查一下我对何时使用什么证书的理解。 这是正确的吗? 客户端将客户端公共(public)证书交给服务器 服务器将服务器公共(public)证书交
假设您有一个相互 SSL 服务,除了 SSL 之外,它还有应用程序身份验证。因此,客户端提供证书(以及服务器),但客户端请求(例如 REST 请求)还包含后端应用程序服务器用于验证的用户名/密码。 就
有人让 Android uiautomator 可以同时在多个设备上运行,但做不同的事情吗? 我的意思是,我希望我的测试同时启动设备和应用程序,然后设备 A 执行设备 B 必须使用react的操作。这
我目前正在尝试在客户端和服务器之间实现双向 TLS 身份验证。我遇到了一个 SSL 错误,它的描述性不强。 StackOverflow 也没有太多与之相关的问题,因为大多数时候它是互联网上的单向 TL
这里是新手。我正在做我的第一个元素,我想为不同的人(普通人、 worker 、农民等)提供 slider ,但我不知道如何放置多个 slider 以及如何让它们全部工作。我从 W3schools 获取
我创建了一张翻转卡片,但卡片内的所有 div 似乎都浮在彼此之上。我希望 div 彼此相邻。 我看了很多问题,但似乎找不到答案。我尝试了多种显示:内联;职位:相对;向左飘浮;清除:两者;但我似乎无法让
我正在使用此控件来安排时间。我有一个单选按钮列表,然后是多个内容 Pane 。根据内容,我想在正确的控件中淡入淡出。但出于某种原因,在 div 上放置一个 float 并设置 z-index 并不能使
有什么方法可以解密双向 SSL(客户端和服务器,两种方式)? 我找到了这个链接:https://www.wireshark.org/lists/wireshark-users/201001/msg00
我正在开发一个 Web 应用程序,安全性是我们在此应用程序中的主要关注点之一。我正在查看不同的 API 安全方法(在 OWASP 中提到),无法理解相互 SSL 身份验证和基于 token 的身份验证
我正在尝试使用分配给 kube-dns 服务的集群 IP 从 dnstools pod ping kube-dns 服务。 ping 请求超时。在同一个 dnstools pod 中,我尝试使用暴露的
过去几天我一直在研究这个问题,但我一无所获。 场景是: 现场的 iOS 应用程序将调用我的 REST 服务 (.NET)。我的 REST 服务将使用相互 SSL 握手调用 Apache Web 服务。
我正在尝试向 java swing 应用程序添加 3 个 JSlider,以便三个 slider 的总值(value)总和为 100。每个 slider 都是一个概率, slider A 是将值添加到
我们正在使用 java 客户端(openJDK 1.8.0) 调用需要相互身份验证的 api。为此,我们使用 Java 标准 JKS 文件作为 keystore 和信任库(包含信任证书和身份证书/私钥
有人告诉我使用双向身份验证连接到客户的服务器。服务器身份验证工作顺利,但我们在获取客户端身份验证方面遇到了巨大的麻烦。让我试着解释一下我们的麻烦。 前段时间我公司在 GeoTrust 购买了一个证书,
正在试用 PAW 并且非常喜欢它。我唯一无法正常工作的是使用 HTTPS 相互身份验证。我需要与之交互的一些 API 需要相互验证的 https。 如何告诉 PAW 使用证书进行身份验证?该证书已经在
我们有一个在 Jboss EAP 5.1 中部署并使用 Spring 2.5 已经运行了一年多的 CXF webservice 我们现有的客户证书管理策略如下: 对于非 PROD,证书名为“NAME-
我正在创建一个将调用 API 的 Windows 服务。对于这个过程,我正在尝试建立相互(双向)SSL 身份验证。因为我是新手。我尝试实现一个简单的客户端和服务器项目,它们将相互进行身份验证。 我已经
我是一名优秀的程序员,十分优秀!