gpt4 book ai didi

apache-spark - Spark从 hive 中选择还是从文件中选择是更好的选择

转载 作者:行者123 更新时间:2023-12-04 11:20:02 25 4
gpt4 key购买 nike

我只是想知道人们对于从Hive读取还是从.csv文件,.txt文件,.ORC文件或.parquet文件读取有什么想法。假设基础Hive表是具有相同文件格式的外部表,您是从Hive表中读取还是从基础文件本身中读取,为什么?

麦克风

最佳答案

tl; dr:我会直接从 Parquet 文件中读取它

我正在使用Spark 1.5.2和Hive 1.2.1
对于500万行X 100列的表格,我记录的一些时间安排是

val dffile = sqlContext.read.parquet("/path/to/parquets/*.parquet")
val dfhive = sqlContext.table("db.table")

dffile count --> 0.38s; dfhive count --> 8.99s

dffile sum(col) --> 0.98s; dfhive sum(col) --> 8.10s

dffile substring(col) --> 2.63s; dfhive substring(col) --> 7.77s

dffile where(col=value) --> 82.59s; dfhive where(col=value) --> 157.64s



请注意,这些操作是使用较旧版本的Hive和较旧版本的Spark完成的,因此我无法评论两种阅读机制之间如何进行速度改进

关于apache-spark - Spark从 hive 中选择还是从文件中选择是更好的选择,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44120162/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com