hadoop - "local caching of data"在本文的上下文中是什么意思？-6ren

hadoop - "local caching of data"在本文的上下文中是什么意思？

转载作者：可可西里更新时间：2023-11-01 14:32:16

26

4

摘自以下几段文字——(http://developer.yahoo.com/hadoop/tutorial/module2.html)，里面提到顺序可读的大文件不适合本地缓存。但我不明白这里的 local 是什么意思...

我认为有两种假设:一种是Client从HDFS缓存数据，另一种是datanode将hdfs数据缓存在本地文件系统或Memory中，供Clients快速访问。有没有人可以解释更多？非常感谢。

但是虽然 HDFS 的可扩展性很强，但它的高性能设计也限制了它特定类别的应用程序；它不像 NFS 那样通用。有一个大使用 HDFS 做出的额外决定和权衡的数量。特别是:

假定使用 HDFS 的应用程序从文件。 HDFS 经过优化以提供流式读取性能；这是以牺牲随机查找文件中任意位置的时间。

数据会一次写入HDFS，然后多次读取；文件更新在它们已经关闭之后不受支持。 (Hadoop 的扩展将提供支持将新数据附加到文件末尾；它计划包含在Hadoop 0.19 但尚不可用。)

由于文件很大，而且读取的顺序性质，系统不会不提供本地数据缓存的机制。缓存的开销足够大该数据应该简单地从 HDFS 源重新读取。

假设个别机器经常发生故障，无论是永久性的还是断断续续的。集群必须能够承受几个完全失败机器，可能很多同时发生(例如，如果机架一起发生故障)。虽然性能可能会随着丢失的机器数量成比例地下降，但系统作为整体不应该变得太慢，也不应该丢失信息。数据复制
解决这个问题的策略。

最佳答案

任何真正的 Mapreduce 作业可能会处理来自 HDFS 的 GB(10/100/1000 秒)数据。

因此，任何一个映射器实例很可能会按顺序处理大量数据(典型的 block 大小为 64/128/256 MB，具体取决于您的配置)(它将读取文件/ block 在其从头到尾完整。

在同一台机器上运行的另一个映射器实例也不太可能在不久的将来再次处理该数据 block ，更重要的是多个映射器实例也将在任何一个 TaskTracker 中与该映射器一起处理数据(希望有相当一部分是“本地”到数据的实际物理位置，即数据 block 的副本也存在于运行映射器实例的同一台机器上。

考虑到所有这些，缓存从 HDFS 读取的数据可能不会给您带来太多好处——您很可能不会在查询另一个 block 之前对该数据进行缓存命中，并最终将其替换在缓存中.

关于hadoop - "local caching of data"在本文的上下文中是什么意思？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10099816/

26

4

0

文章推荐： hadoop - 支持 Amazon EMR 上的 Hadoop 1.0.1 作业

文章推荐： memory - 为什么 EMR 实例没有像映射器那样多的缩减器？

文章推荐： maven - hbase 和 osgi - 找不到 hbase-default.xml

JavaScript:意思？
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 9 年前。 Improve this ques
python - 装箱(意思)
关闭。这个问题是not reproducible or was caused by typos .它目前不接受答案。这个问题是由于错别字或无法再重现的问题引起的。虽然类似的问题可能是on-topi
c - 返回什么；意思？
在main()中声明其原型(prototype)的函数的返回数据类型为void。它包含一个指令返回；如 main() { void create(int *p); *some code
scala 奇怪的符号 "_@"意思
我想知道这个 scala 符号是什么:_@。 (搜索引擎无法识别奇怪的字符，因此很难在 google 上找到任何内容...) 这里是上下文: def doNodeParse(json: JValue)
gcc - 什么 '__asm__(".previous");'意思？
在尝试编译我的项目时，它使用了一些第三方头文件，使用 mingw 4.4，我遇到了以下错误: Assembler messages: Error: junk at end of line, first
c - 什么 ((void (*)())buf)();意思？
我正在解决 picoCTF 上的二进制漏洞利用挑战，并遇到了这段代码: ((void (*)())buf)(); 哪里buf是一个字符数组。我解决了挑战，但似乎无法理解它到底在做什么。我看了this
javascript - export default something() 意思
我正在浏览 React Navigation docs我在那里遇到了这样的事情: import Ionicons from 'react-native-vector-icons/Ionicons';
selenium -//按钮[@type ='submit']意思
selenium 中以下命令的含义是什么？我尝试创建一个自动测试用例。然后如下://button[@type='submit'] 我在 selenium 工具中看到的语法。最佳答案这是一个 XP
c - a[0] 在多维数组中表示(意思)是什么？
我刚开始看书学习 C 语言，对他们讨论指针和数组的部分并没有感到困惑。如果有一个名为 a[NUM_ROW][NUM_COLS] 的多维数组(我只是将此数组讨论为特定的二维数组)，那么 a[0] 是什么
c - while (*p2++ = *p1++); 是做什么的？意思？
这个问题在这里已经有了答案: How does "while(*s++ = *t++)" copy a string? (17 个答案) 关闭 9 年前。我有一个代码块: int main ()
linux - 什么信号(SIGCHLD，SIG_DFL);意思？
我没有在我的代码中处理 SIGCHLD。我的进程在终止后仍然立即被删除。我希望它成为僵尸进程。如果我将 SIGCHLD 设置为 SIG_DFL 那么它会起作用吗？如何将 SIGCHLD 设置为 SI
python - fig, ax = plt.subplots() 意思
我已经使用 matplotlib 一段时间了，但我并不真正理解这一行的作用。 fig, ax = plt.subplots() 谁能解释一下？最佳答案 plt.subplots() 基本上是一个(非
c - double* (*p[3]) (void* (*)()); 是什么意思？意思？
我很难理解以下声明的含义。这个申报标准吗？ double* (*p[3]) (void* (*)()); 谁能帮我理解这个声明的意思？最佳答案阅读复杂声明的规则:找到最左边的标识符并向外工作，记住
c - 这个声明 typedef void foo(); 是什么意思？意思？
关闭。这个问题需要details or clarity .它目前不接受答案。想改进这个问题吗？通过 editing this post 添加细节并澄清问题. 关闭 8 年前。 Improve t
shell - 1>/dev/null 2>&1 & pid1=$!意思？
我正在学习如何并行运行多个进程 ./script1.sh param1 1>/dev/null 2>&1 & pid1=$! ./script1.sh param2 1>/dev/null
javascript - 在 Chaplin js 框架中，以 ! 为前缀的事件是做什么的？意思？
我看到这些事件散布在 chaplin 示例代码中，但在文档或源代码中没有任何解释。似乎这意味着它是一个全局事件，触发了一个 Action 。那是对的吗？它们只是一个惯例，还是以某种方式强制执行？ #
c - C 表达式 ((void(*)(void))0)(); 是什么意思？意思？
((void(*)(void))0)(); 所以我们将整数 0 类型转换为这个棘手的类型 (void(*))(void) 然后执行它。消息来源声称这应该有效，但实际上是什么？我想这一定是像 #def
javascript - following a function with (jQuery, window, document) 是什么意思？意思？
这个问题在这里已经有了答案: How does this JavaScript/jQuery syntax work: (function( window, undefined ) { })(win
fortran - 在 Fortran 中，.feq 有什么作用？或.fne。意思？
if(a .feq. 5.0_dp) then **** if(a .fne. 5.2_dp) then ***我遇到了一些这样的代码。 .feq 有什么作用？或.fne。意思？是“=”还是“\=”？
java - Java 中的通配符 Generic 和意思，下界或上界
所以我在阅读泛型方法时感到很困惑。先说一下这里的问题: 在这个例子中:假设我需要一个适用于任何类型 T 的 selectionSort 版本，方法是使用调用者提供的外部可比较对象。第一次尝试: pu

首页

博学

6Ren·AI

商城

hadoop - "local caching of data"在本文的上下文中是什么意思？