java - 使用 Hadoop，我可以在没有运行数据节点的机器上创建任务跟踪器吗？-6ren

java - 使用 Hadoop，我可以在没有运行数据节点的机器上创建任务跟踪器吗？

转载作者：可可西里更新时间：2023-11-01 14:55:10

26

4

这是我的情况:

我有一个使用 HBase 的 mapreduce 作业。我的映射器接受一行文本输入并更新 HBase。我没有 reducer ，也没有将任何输出写入光盘。我希望能够在我预期利用率激增时为我的集群增加更多处理能力，然后在利用率下降时缩减。让我们暂时假设我不能使用亚马逊或任何其他云提供商；我在私有(private)集群中运行。

一种解决方案是在我需要更多容量时向我的集群添加新机器。但是，我希望能够在没有任何等待或麻烦的情况下添加和删除这些机器。我不想每次需要添加或删除节点时都重新平衡 HDFS。

所以看起来一个好的策略是拥有一个“核心”集群，其中每台机器都运行一个 tasktracker 和一个数据节点，当我需要增加容量时，我可以启动一些“一次性”机器运行任务跟踪器，但不是数据节点。这可能吗？如果是这样，有什么影响？

我意识到在没有数据节点的机器上运行的 tasktracker 将无法享受数据局部性的好处。但实际上，这意味着什么？我在想象，当在其中一台“一次性”机器上安排工作时，jobtracker 将通过网络向 tasktracker 发送一行输入，然后 tasktracker 接受该行输入并将其直接提供给 Mapper，而无需向光盘写入任何内容。这是怎么回事？

哦，我正在使用 Cloudera cdh3u3。不知道这是否重要。

最佳答案

I'm imagining that, when scheduling a job on one of the "disposable" machines, the jobtracker will send a line of input over the network to the tasktracker, which then takes that line of input and feeds it directly to a Mapper, without writing anything to the disc. Is this what happens?

不完全是，作业跟踪器分配一个任务跟踪器来运行映射任务来处理输入拆分。 JobTracker不向task tracker传递数据，更多的是传递序列化的分割信息(文件名、起始偏移量和长度)。 TaskTracker 运行 MapTask，MapTask 为分割信息实例化 InputFormat 和关联的 RecordReader——将输入键/值传递给 Mapper。

如果你没有本地数据节点，或者你有一个本地数据节点，但数据没有复制到本地数据节点上，数据将从另一个数据节点跨网络读取(希望是本地机架，但仍可能来自其他地方)。

您可以在 Hadoop 计数器输出中查看数据 block 在任务本地或机架本地的频率统计信息。

关于java - 使用 Hadoop，我可以在没有运行数据节点的机器上创建任务跟踪器吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10343397/

26

4

0

文章推荐： c++ - Hadoop 的可移植键值数据文件格式？

文章推荐： asp.net - Visual Studio 2010 源格式 HTML div 标签

文章推荐： javascript - 更改文本区域中特定部分的文本颜色

Java 跟踪器/记录器
我需要跟踪包含数千个 JAR 和 .CLASS 文件的已编译 Java 应用程序，您知道有什么合适的工具可以附加到 JVM 来跟踪函数调用(无需源代码)吗？最佳答案是的。 Jprofiler无需源
python - 如何为自定义类训练 DeepSORT 跟踪器？
我想使用深度学习和计算机视觉技术来检测和统计葡萄园中葡萄藤的数量。我正在使用 YOLOv4 对象检测器并在 darknet 上进行训练框架。我已经能够将 SORT 跟踪器集成到我的应用程序中并且运行良
ios - 如何在用户不移动时自动暂停 GPS 跟踪器
我有一个分为两部分的问题 (1) 如何在用户不移动时暂停事件跟踪，(2) 这可以节省电池生命周期吗？更多信息。我正在构建一个事件跟踪器，但用于通常涉及大量暂停的事件 - 例如。步行30分钟，在一个位
javascript - 在同一页面上使用两个 Google Analytics 跟踪器
我需要能够在一个页面上使用多个 Google Analytics(分析)。我怎样才能用异步代码做到这一点？让跟踪器的工作方式有点像这样(不确定确切的代码): var tracker2 = _gat.
android - 设置 Google Analytics 跟踪器
我正在尝试为我的 Android 应用设置 Google Analytics v2。现在，我正在尝试通过为我的 Activity 和 fragment 设置跟踪器来跟踪不同的屏幕。我有两个所有东西都
python - BitTorrent 跟踪器 API 不错吗？
您知道有哪些易于使用、简洁的 Python 或 Perl API 可以与 BitTorrent Tracker 进行交互吗？例如，我获取一个 torrent 文件，枚举文件中的所有跟踪器，并向跟踪器询
php - Serp 跟踪器 PHP 脚本
我一直在尝试为 SEO 编写自己的关键字位置排名扫描器。我找到了一个 PHP 类，它看起来很有用，但我不知道如何让它工作。我对在 PHP 中使用类/函数还很陌生。这是我找到的代码: http://
c++ - 丢失目标时如何重置或更新 KCF 跟踪器 ROI
我正在使用 KCF 跟踪算法，我的问题是当目标退出窗口时，跟踪器不会重置并错误地在窗口边缘显示它的矩形。在理想状态下，跟踪器应该在失去目标时删除矩形。这些是我的代码: int main(int ar
database - 跟踪器/类似种子服务的最佳 dbms 是什么？
我正在开发一项服务，用于跟踪互联网上的节点。该服务将按日期时间对节点列表进行排序，并且数据库不需要在崩溃中幸存下来(http://wiki.postgresql.org/wiki/What%27s_n
java - 如何在 Spark 中实现自定义作业监听器/跟踪器？
我有一个如下所示的类，当我通过命令行运行它时，我想查看进度状态。类似的东西， 10% completed... 30% completed... 100% completed...Job done!
Angular 2 - 找不到 404 跟踪器
我已经按照入门指南进行了一些扩展，以了解之前的 Angular 2 版本。我已经更新了我的修订版并相应地更改了所有内容。当我运行 Web 服务器时，我现在收到 traceur 错误 404... 这是
gprs - 与服务器通信 GPS/GPRS/GSM 跟踪器
我正在开发一个使用 GPS/GPRS/GSM 的车辆跟踪系统。我目前使用的追踪设备是 GV100，这是一款来自 Quectel ([www.quectel.com][1]) 的 GPS/GPRS/GS
angular2 rc4“XHR错误(404未找到)加载/跟踪器
我将 angular2 从 RC2 迁移到 RC4，现在收到以下错误: localhost/:36 Error: Error: XHR error (404 Not Found) loading ht
node.js - 连接到 torrent 跟踪器/对等点
我目前正在尝试在 nodeJS 中实现一个最小的 torrent 客户端。我正在阅读此规范:https://wiki.theory.org/index.php/BitTorrentSpecifica
python - 在 python 中使用边界框更新 OpenCV 跟踪器
我正在使用 OpenCV 跟踪器在视频中执行人脸跟踪，每隔几帧使用人脸检测器。如果人脸检测器检测到人脸，我想用“检测到的”边界框更新跟踪器。我看到在 C++ 实现中有一个输入 Rect 的选项，但由于
php - Mantis Bug 跟踪器 API 集成？
我刚刚安装了 Mantis 错误跟踪器以与 Eclipse IDE 一起使用，并且已经开始发现它的优点。真的很棒。由于 Eclipse 通过 PHP soap API 与 Mantis 通信，我想知
javascript - 同一用户在同一天拥有多个 IP，并使用 Analytics JavaScript 跟踪器
使用 Google Analytics 的 Javascript 跟踪器，如果有人访问 IP #1 的网站，1 小时后(同一天)使用另一个 IP #2(但在同一浏览器中)访问网站，是否算作 1 或2
mysql - 打开 gps 跟踪器 git 项目 openshift
很抱歉打扰您，但我已经为此苦苦挣扎了近两周，并进行了很多研究，但没有找到任何解决方案: 我正在尝试运行这个 git 项目 open gps tracker ，在本地它运行完美，但是当我将它部署到开放
javascript - 将 asp net 项目连接到 MantisBT 跟踪器
我有一个 asp net 项目，我必须在登录后向 Mantis 跟踪器添加一些问题。最好的方法是什么？ JS 还是 C#？我找到了几个库(例如 Mantis-JS)，但我发现没有文档，我不明白我应该做
java - 如何在 Java 中抓取 udp BitTorrent 跟踪器？
我发送了一个抓取数据包，播种器、下载器和盗取器总是返回 0。这是我的初始连接和抓取代码。 public void scrape() { for (final String infoh

首页

博学

6Ren·AI

商城

java - 使用 Hadoop，我可以在没有运行数据节点的机器上创建任务跟踪器吗？