- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有几个关于 Hive 性能的问题。
我在网上某处读到压缩数据(特别是 ORC,特别是 Snappy)会在读取数据方面带来更好的性能。
此外,如果我使用 order by 将我的数据加载到表中,它将导致 1 个大文件,这可能会降低读取可用性。
因此,实现与 order by 相同效果的另一种方法是使用 cluster by,它会创建多个小文件。
我对压缩数据进行了实验,按数据聚类并按数据排序以查看它们的性能。
目前,我有 5 个数据节点和 1 个名称节点。
加载到每个表中的数据文件约为 19GB+(200 万+条记录)
我使用以下查询创建了我的 orc snappy 压缩表:
CREATE EXTERNAL TABLE orc_t (....)
STORED AS ORC
LOCATION '...'
TBLPROPERTIES(orc.compress="SNAPPY")
SELECT * FROM orc_t WHERE date_format(st_time, 'yyyy-MM-dd') = '2017-05-20'
最佳答案
Why multiple small data files (size of around 256MB) does not have significant performance over a single large data file (size of around 19GB+) when I perform the sample query (SELECT * FROM t WHERE date_format(st_time, 'yyyy-MM-dd') = '2017-05-20';
Shouldn't the multiple small data files have some performance edge over the single large data file?
关于performance - Hive 压缩数据,按数据聚类,按数据排序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47385944/
我是一名优秀的程序员,十分优秀!