hadoop - Hive 对行数、列数、文件大小是否有理论和实际限制？-6ren

hadoop - Hive 对行数、列数、文件大小是否有理论和实际限制？

转载作者：行者123 更新时间：2023-12-02 18:46:25

29

4

我在 https://cwiki.apache.org/confluence/display/Hive/Home 中找不到任何记录在案的限制。

我的猜测是行数或列数没有限制。文件大小受文件系统限制。通过正确分区数据，我们还可以管理文件大小和文件数量。

谢谢你。

最佳答案

列数:

在这个 jira 中，他们成功地测试了 15K 列和 20K 列导致 ORC 文件的 OOM(默认为 1GB 堆)。文本文件可能可以存储更多列:https://issues.apache.org/jira/browse/HIVE-7250 - 顺便说一句，jira 是固定的。

最大文件大小。

文件存储在 block 中， block ID 很长，最大为 2^63。
如果您的 block 大小为 64 MB，则最大大小为 512 yottabytes。因此，实际上没有限制，但还有其他 Hadoop 限制。

这个问题过于宽泛，无法完整回答，但在这项工作中几乎没有关于 Hadoop 可扩展性的重要结论:http://c59951.r51.cf2.rackcdn.com/5424-1908-shvachko.pdf

命名空间限制。

命名空间由文件和目录组成。目录定义了命名空间的层次结构。文件——数据容器——被分成大块(每个 128MB)。

名称节点的元数据由分层命名空间和 block 组成
到数据节点映射，它决定了物理 block 的位置。
为了保持元数据操作的高速率，HDFS 保持整个
RAM 中的命名空间。名称节点持久存储命名空间
图像及其修改日志在外部存储器中，例如本地或
远程硬盘。
命名空间镜像和日志包含 HDFS 文件和目录
名称及其属性(修改和访问时间、权限、
配额)，包括文件的 block ID。
为了存储 1 亿个文件(引用 2 亿
block )名称节点应具有至少 60GB 的 RAM。

磁盘空间。

有 1 亿个文件，每个文件平均有 1.5 个 block ，我们将有
文件系统中有 2 亿个 block 。如果最大块大小为 128MB
并且每个 block 被复制 3 次，那么需要的总磁盘空间
存储这些 block 接近 60PB。

簇的大小。

为了容纳一亿文件引用的数据
命名空间，一个 HDFS 集群需要 10,000 个节点，配备 8 个
1TB 硬盘。这样一个集群的总存储容量是60PB

内部负载。

block 报告和心跳处理的内部负载
万节点HDFS集群，总存储容量60PB
消耗总名称节点处理能力的 30%。

更新:

中的原生 HDFS 都是如此。 Hadoop 2 .

Amazon S3 声称具有更高的可扩展性，几乎是无限的，尽管 S3 在重写和删除后的读取最终是一致的。 HADOOP-13345 向 Amazon S3 存储的 S3A 客户端添加了一项可选功能:能够使用 DynamoDB 表作为文件和目录元数据的快速且一致的存储。

还有其他Hadoop Compatible FileSystems (HCFS) .

还支持 中的删除编码Hadoop 3.0 ，物理磁盘使用量将减少一半(即 3 倍磁盘空间消耗将减少到 1.5 倍)，容错水平将提高 50%。这一新的 Hadoop 3.0 功能将为 hadoop 客户节省大量硬件基础设施，因为他们可以将 hadoop 集群的大小减少一半并存储相同数量的数据，或者继续使用当前的 hadoop 集群硬件基础设施并存储双倍的数据量与 HDFS EC。阅读有关 HDFS 纠删码和其他 Hadoop3 HDFS enhancements. 的更多信息

关于hadoop - Hive 对行数、列数、文件大小是否有理论和实际限制？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46333516/

29

4

0

文章推荐： docker - 如何映射gentics/mesh docker镜像的配置目录？

文章推荐： docker - 无法在 alpine docker 容器中启动应用程序

文章推荐： docker - docker缺少var/lib/docker文件夹

sql - 列数
您如何计算Oracle表中的列数？最佳答案 SELECT count(*) FROM user_tab_columns WHERE table_name = 'FOO' 应该给你foo中的列数。您可
image - CSS3 列数
我有一个宽度为 100% 的 div，里面有大约 10 张图片，所有图片的宽度和大小都不同。我希望能够无缝地将这些图像彼此 float ，我已经做到了，但它们不会在屏幕上拉伸(stretch)，它们都
javascript - 表格应该改变行数/列数？
请看下面的代码，表格应该根据下面selected id选项中选择的输入更改行数，但只读取select id的第一个值，行数不会根据选择，你能指出我代码中的错误吗？ http://jsfiddle.ne
android - 减少android中gridlayout的行/列数
我需要一个可以在 3×3 和 4×4 之间切换的动态 gridlayout。我可以 setRowCount 和 setColumnCount 从 3 到4 但不是从 4 到 3。它会显示以下问题: C
不遵守 CSS 列数
这里有一个没有真正答案的类似问题:CSS columns bug — 5 column count only showing 4 (with images) 我正在使用 column-count 来显
excel - 在标题中查找匹配并偏移到 X 列数
我正在尝试找到一种方法来填充摊销时间表，如下所示。我目前使用的公式是: =IF($B2=$1:$1,$A2/$C2," ") 但是，这仅填充了第一个点(“起点”)，我想做的是根据摊销期抵消这一点。期
python - OpenCV:像素数与行数*列数
我运行以下代码: import cv2 import numpy as np img_file='pokemon.jpg' img=cv2.imread(img_file) # print tota
Asp.net GridView 列数
我正在使用 asp.net 和 vb。这里我将数据绑定(bind)到Gridview。该数据集有 5 条记录，3 列，并且 gridview 显示 5 条记录，3 列。但 Gridview.colum
mysql - 列数、整数值、数据被截断和其他一些消息
我已经为我的数据库苦苦挣扎了一段时间，几乎不可能找到我的老师。我的代码如下: INSERT INTO `database28`.`activity` VALUES ("Stefan", 1.1.2.2
python - MySQL插入一个条目，其中值的数量<列数
我有一个执行 SQL 命令的 python 脚本，并尝试将所有数据插入表中。问题是我有一个条目列表，例如: "Bob", "bob@gmail.com" "John", "john@gmail.com
css - 基于父列的 Bootstrap 列数
有谁知道这是否可以通过 bootstrap mixins 来完成。列(父级数) 像什么Neat有。在 Neat the Columns 中，mixins 的工作方式如下 @mixin span-c
html - 列数 css 和列分离
我有这样的网址:http://xn----7sbabhi8cwaajmue5o.xn--p1ai/cars/search/by_man_and_model?by_manufacturer=115 你可
html - 固定列宽，列数/行数取决于屏幕宽度
使用 Bootstrap 3，我正在寻找一种网格布局，其中列宽在任何屏幕分辨率下都是固定的(比如 200 像素)，但它们的数量取决于屏幕宽度。换句话说，我知道列的宽度，但我不知道每行有多少列，因为这
java - 我需要显示每列的最小值，编号不均匀。列数
public class SmallestColumn2{ public static void main(String[] args){ int [][] smallest
css - 更改网格系统中的 Bootstrap 列数
如果我只有 9 列，但我想将它们分散到 100% 的 div。如何做到这一点？ NSW VIC QLD WA SA TAS ACT N
html - CSS 列数 - 更改顺序
我想在这里更改列的顺序: #container { position: relative; width: 600px; } #column-wrapper { -webkit-
python DataFrame获取行数、列数、索引及第几行第几列的值方法
1、df=DataFrame([{‘A':'11','B':'12'},{‘A':'111','B':'121'},{‘A':'1111','B':'1211'}])
sql - 使用SQL Loader导入csv文件到表中[但是大号。列数]
我想将csv文件形式的数据导入表中。[使用Oracle SQL Developer]。我有数百个文件，每个文件有大约50列。从SQL * Loader Wiki（http://www.orafaq.
qt - 如何根据布局大小更新 QGridLayout 行/列数？
好吧，这对我来说似乎很基础，尽管我找不到任何关于如何实现它的信息。假设我有某种 QGridLayout 包含相同大小的小部件。现在我想根据布局大小更新其行数/列数。因此，例如在相对较宽的屏幕上它看
hadoop - Hive 对行数、列数、文件大小是否有理论和实际限制？
我在 https://cwiki.apache.org/confluence/display/Hive/Home 中找不到任何记录在案的限制。我的猜测是行数或列数没有限制。文件大小受文件系统限制。通

首页

博学

6Ren·AI

商城

hadoop - Hive 对行数、列数、文件大小是否有理论和实际限制？