gpt4 book ai didi

hadoop - HDFS 中的高吞吐量与低延迟

转载 作者:可可西里 更新时间:2023-11-01 14:10:55 31 4
gpt4 key购买 nike

我试图用自己的话来定义 HDFS 中高吞吐量与低延迟的含义,并提出了以下定义:

HDFS is optimized to access batches of data set quicker (high throughput), rather then particular records in that data set (low latency)

有意义吗? :)

谢谢!

最佳答案

我认为您所描述的更像是针对不同访问模式(顺序、批处理与随机访问)进行优化之间的差异,而不是最纯粹意义上的吞吐量和延迟之间的差异。

当我想到一个高延迟系统时,我并没有考虑我正在访问的是哪条记录,而是访问任何记录都会产生很高的开销成本。即使只是从 HDFS 访问文件的第一个字节也可能需要大约一秒或更长时间。

如果您更倾向于量化,可以将访问 N 条记录所需的总时间视为 T(N)=aN+b。这里,a 代表吞吐量,b 代表延迟。对于像 HDFS 这样的系统,N 通常很大,以至于 b 变得无关紧要,而有利于低 a 的权衡是有益的。与低延迟数据存储相比,在低延迟数据存储中,每次读取通常只访问一条记录,然后针对低 b 进行优化会更好。

话虽如此,您的说法并没有错;这绝对是真的,通常情况下,批访问存储具有高延迟和高吞吐量,而随机访问存储具有低延迟和低吞吐量,但严格来说并非总是如此。

关于hadoop - HDFS 中的高吞吐量与低延迟,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16718095/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com