gpt4 book ai didi

apache-spark - Hive 在选择数据时是否保留文件顺序

转载 作者:可可西里 更新时间:2023-11-01 14:30:12 25 4
gpt4 key购买 nike

如果我执行 select * from table1; 将检索其中的顺序数据

文件顺序或随机顺序

最佳答案

如果没有 ORDER BY,则无法保证顺序。

数据被许多进程(映射器)并行读取,在计算分割后,每个进程开始读取一些文件或几个文件,这取决于计算的分割。

所有并行进程可以处理不同的数据量并运行在不同的节点上,每次的负载不一样,所以它们开始返回行和完成的时间不同,取决于太多因素,例如节点负载,网络负载、每个进程的数据量等。

移除所有这些因素可以提高订单预测的准确性。比如说,单线程顺序文件读取可能会以与文件中相同的顺序返回行。但这不是数据库的工作方式。

同样根据 Codd 的关系理论,the order of columns and rows is immaterial .

关于apache-spark - Hive 在选择数据时是否保留文件顺序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56678834/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com