hadoop - 在 Hadoop 中，按日期对表进行分区是个坏主意吗？-6ren

hadoop - 在 Hadoop 中，按日期对表进行分区是个坏主意吗？

转载作者：可可西里更新时间：2023-11-01 15:51:22

25

4

我正在阅读罗伯托在以下帖子中给出的答案。

What is the difference between partitioning and bucketing a table in Hive ?

似乎按日期对数据进行分区(如果我的数据每天都来)不是一个好主意，因为它最终会在 HDFS 中创建许多目录和文件，并且会降低查询的整体性能？

如果我有业务需求，需要更频繁地使用日期来查询数据，我该怎么办？

最佳答案

使用日期作为分区绝对没有错。事实上，它是最常用的分区值之一。每年 365 个额外的目录不会对集群的性能产生任何影响。

至于改变文件的数量:如果你每天都在摄取数据，那么无论你是否按日期分区，文件的数量都不会改变。唯一的区别是文件存储在哪个目录中。鉴于您将经常根据日期进行查询，您绝对应该根据日期进行分区。

罗伯托的观点是有道理的，但他说的是您拥有的分区比您考虑使用的多得多的情况。根据 Hortonworks employee :

current Hive versions with RDBMS metastore backend should be able to handle 10 000+ partitions.

因此您应该按日期分区，但在您的积压工作中添加一张 Jira 票证以在 300 年后重新评估它。

关于hadoop - 在 Hadoop 中，按日期对表进行分区是个坏主意吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49024254/

25

4

0

文章推荐： hadoop - 与 Hadoop 同步数据库提取

文章推荐： c++ - 如何用 clang 构建 clang？

文章推荐： c++ - OpenCV 2.42 特征检测器 FREAK

文章推荐： Hadoop hive : Generate Table Name and Attribute Name using Bash script

只有一个索引的数据库表……坏主意？
如果一种编程语言允许创建数据库表，但只允许将一个字段用作索引……那会有多大限制？我不是真正的数据库程序员，所以我想知道这样的系统是否可以用作正式数据库的基础，或者只是一个玩具。最佳答案那将是极其有
class - 深层类继承层次结构——坏主意？
希望高手能解惑。非常高的概述是我不是编码的初学者，但对 OOP 还是新手。这组消息类是我们正在编写的一个大型模拟应用程序的核心，我不想愚蠢地这样做——这个接口(interface)将应用程序切成两半，
WPF 在每个用户控件中合并了资源字典 - 坏主意？
我将我的应用程序的资源保存在一个单独的 DLL 中，并在我的主 EXE 中使用 App.xaml 中的类似内容引用它们:- 当我编辑主 EXE 项目中的窗口时，VS2010 设计器无法识
svn - 合并后恢复，坏主意？
我是颠覆的新手。最近，我在两个不同的分支中进行了一些开发，其中一个分支是另一个分支的分支。我已经将一些更改从第一个分支合并到主干。然而，当尝试将其他分支的更改合并到主干时，一切都变得困惑。也就是说，我
c# - 不等待就返回异步方法的结果 - 坏主意？
我正在查看不久前编写的一些代码，这让我非常紧张。问题中方法的大致形状是这样的； public Task Foo(...){ SyncMethod(); SyncMethod(); .
C++ - 混合默认成员初始值设定项和成员初始化列表 - 坏主意？
这部分是风格问题，部分是正确性问题。提交以下示例(处理包含嵌入式 header 的数据 block 的类的精简版): class Foo { public: Foo(size_t size)
sql - 交叉检查用户列表和数据库上的用户 - 坏主意？
说吧。如果我在我的系统上注册了 1,000,000 个用户，并且我有一个包含 500 个名称的列表。我想将这些名称与我系统上的用户数量进行交叉检查，以查看哪些名称/用户已在数据库中注册。这样的过程
php - 在析构函数中保存 - 坏主意？
在 PHP 应用程序中，在对象的析构函数期间运行我的保存代码是不是一个坏主意？我之所以问，是因为如果没问题，那么我可以在父 Model 类的析构函数中添加一个 save() 调用，这样就省去了内存其他
.net - NUnit 全局初始化 - 坏主意？
我们的测试套件中需要一些全局一次性设置代码。我们可以多次这样做，但这需要相当长的时间。所有灯具都需要它，因此[TestFixtureSetUp]不起作用。它必须在所有 [TestFixtureSet
php - 永无休止的ajax请求，好主意/坏主意？
对于我网站的后端，只有少数人可见，我有一个系统，通过 ajax 与 php 进行通信，如下所示: function ajax(url, opts) { var progress = false
java - JMenuBar 和项目数组 - 坏主意？
我在互联网上闲逛了一下，缺乏发现让我猜测是的，但是使用数组来填充 JMenuBar 的项目不是一个好主意吗？我也认为是的，因为每当你想知道“这是一个坏主意吗？”通常是这样。然而，我对编程的新手让我怀疑
c# - 隐式运算符 - 什么时候是好/坏主意？
我正在开发一个应用程序，其中方向(向前/向后)的概念非常重要。问题是在整个代码库中存在着几种不同的约定:在某些地方它是 true/false，而在其他地方则是 +1/-1。为了尝试将它们组合在一起
c++ - 将常量定义为函数会导致 header = 坏主意？
在我们的一个项目中广泛使用的包含文件中，我们有这些方便的常量: const double kPi = asin(1.0) * 2.0; const double kPiHalf =
haskell - 自定义 Prelude 模块——坏主意？
我刚刚意识到我可以定义自己的 Prelude 模块并仔细控制它的导出。这被认为是不好的做法吗？优点: 无需在大型项目中重复导入“通用”模块。无需写“导入前奏隐藏(catch)”。最佳答案一般
NHibernate dateTime 作为 ID 坏主意？
我有一个实体，使用 DateTime 作为 Id 似乎很合适，但是我有一种奇怪的感觉，它可能是一个糟糕的想法(虽然我无法想出任何合乎逻辑的理由来说明为什么), 这是一个不可变的对象(即一旦记录了值，它
c# - 重新利用 .net 类型系统——坏主意？
我正在尝试编写一个元素制作系统，我可能希望有一天将其放入游戏中。有 Recipe 指定他们需要的成分和他们生产的东西。我希望食谱具有灵 active ，这样它们只需要种类繁多的配料，而不是一种确切的
java - EJB 事务 - 静态上下文 - 坏主意？
现状想象一下: 有一个这样的枚举: enum State{ INITIAL{ @Override public void proceed(){...} }, NEXT_S
javascript - 在对象原型(prototype)上附加下划线，坏主意？
常识是，仅仅因为您可以扩充原生类型，并不意味着您应该。扩充原生类型原型(prototype)始终不是一个好主意，唯一的异常(exception)是 ECMAScript 规范中的 polyfill
iphone - 在 iPhone 应用程序中强制纵向布局 - 坏主意？
我不是经验丰富的 iPhone 用户，所以我有一个关于在我的应用程序中处理纵向/横向布局的好方法的问题。问题是我当前的 UI 设计方式不太适合横向布局/不可用。那么，这是 iPhone 应用程序强制
ios - 将类别与 UIResponder 一起使用 - 坏主意？
我正在使用一个类别将 +load 添加到 UIResponder，这样我放在一起的 Cocoapod 就可以得到一个 didFinishLaunching使用 Cocoapod 的人无需修改他们的 a

首页

博学

6Ren·AI

商城

hadoop - 在 Hadoop 中，按日期对表进行分区是个坏主意吗？