hadoop - 如何在MapReduce中处理一条记录依赖于另一条记录的大文件-6ren

hadoop - 如何在MapReduce中处理一条记录依赖于另一条记录的大文件

转载作者：行者123 更新时间：2023-12-02 21:35:25

25

4

我有一个场景，其中有一个非常大的文件，并说第1行记录可能依赖第1000行数据，而第1行和第1000行可以是单独的缓存的一部分。现在，我对框架的理解是记录读取器将向映射器返回一个键，值对，而每个k，v对将彼此独立。此外，由于文件已分为拆分并且我也希望这样做(即splittable false是没有选择)，无论如何我可以编写自己的记录读取器，映射器或reducer来处理吗？

依赖性就像-

第1行:a，b，c，d，e，f

第2行:x，y，z，p，q，r

现在，第2行中的x需要与第1行中的d一起使用，以获得所需的输出。

谢谢。

最佳答案

我认为您需要的是实现 reducer侧加入。在这里，您可以看到对其的更好解释:http://hadooped.blogspot.mx/2013/09/reduce-side-joins-in-java-map-reduce.html。

两个相关值都必须以同一化简器(由键和分区器定义)结尾，并且应该将它们分组在一起( GroupingComparator )，并且可以使用 SecondSort 来对分组值进行排序。

关于hadoop - 如何在MapReduce中处理一条记录依赖于另一条记录的大文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32693241/

25

4

0

文章推荐： java - Hadoop JobClient getJob方法执行时间太长

文章推荐： sql-server - 将外键添加到复合键时出错

文章推荐： hadoop - Talend HiveDB 连接需要 cloudera SerDe

javascript - 在 A 依赖于 B、B 依赖于 C 的情况下，并行处理 A、B 和 C 的完美工作流程是什么？
我想知道如果一个人需要并行处理项目 A、B 和 C，其中 A 依赖于 B，B 依赖于 C，那么完美的工作流程是什么。目前，我将所有内容都放在一个存储库中，这加快了早期开发速度。所以我的工作目录如下所
ruby-on-rails - Omnisocial 依赖于 gem bcrypt-ruby 2.1，但 Rails 3.1 依赖于 bcrypt 3.0.0 - 我该怎么办？
尝试测试这款外观精美的 gem - http://icelab.com.au/articles/welcome-to-the-omnisocial/ - 这 promise 可以将 Twitter 和
visual-studio - sdk 中的 flutter_localizations 依赖于 intl 0.17.0，fstore 依赖于 intl ^0.16.1，禁止来自 sdk 的 flutter_localizations
因为每个版本flutter_localizations来自 SDK 取决于 intl 0.17.0而 fstore 依赖于 intl ^0.16.1 , 禁止来自 SDK 的 flutter_loca
依赖于 TypeScript 的字符串文字属性和索引
类似于Typescript: Type of a property dependent on another property within the same object我想要一种属性依赖的类型。
Mysql 依赖于 IF 条件下的嵌套内部查询
我需要计算分页的结果数。演示查询 select A.order_id, IF( E.assign_date IS NOT NULL AND E.assign_dat
php - 依赖于 IF 语句的排序算法
我的表中有一个项目列表，其中包含字段 votes_up 和 votes_down 以及其他字段。现在我想根据这两个字段的功能根据受欢迎程度订购商品。问题在于受欢迎程度的算法取决于 votes_up 的
Firebase_auth 依赖于 firebase_core 错误
cloud_firestore:^0.14.4firebase_auth: ^0.18.4+1smooth_star_rating: ^1.0.4地理点:^0.7.1geoflutterfire: ^
Log4j2 - PatternLayout 依赖于 LogLevel
是否可以定义两个不同的 PatternLayouts 并依赖于它使用第一个或第二个的应用程序 LogLevel？示例: 如果我使用默认的 ERROR 级别运行我的应用程序，它应该打印如下日志语句:
c++ - 依赖于 char 符号的专用结构模板
我有一个函数 template void frobnicate()做的东西。我需要 T 成为少数几个选择类型之一，并且我需要一些关于这些类型的信息。我通过提供特征来做到这一点: template st
wpf - 依赖于 MouseEventArgs 的单元测试功能？
我目前正在开发我的一个项目，它是一个类似于 MSPaint 的 WPF 应用程序。但是，我不使用铅笔工具或类似的工具，而是使用对象(矩形、圆形、三角形等)进行绘画。我使用 Prism 和 MVVM 模
r - 依赖于 R 中非标准评估的函数的包装器
我在 ftable 周围写了一个包装器因为我需要计算许多变量的频率和百分比的平面表: mytable <- function(...) { tab <- ftable(...,
Gradle 依赖于 buildscript 中的项目
如果可以在 Gradle 中使用来自其他项目的任务，我想尝试一下。假设 ProjectB 是一个 src/main/groovy 包含 com.MyTask 的项目，有父 ProjectA 在 Pro
c# - 依赖于 HttpContext 的单元测试
我需要测试一些依赖于当前上下文的静态方法。现在，我当然可以使用 HttpContextWrapper 从我自己的代码中删除这种依赖性。问题在于我在这些方法中使用的第 3 方 API。他们依赖于 Htt
generics - 依赖于 Rust 中另一个泛型的泛型类型
我正在尝试创建一个通用的结构，具有通用实现特征的界限。特征本身是通用的。这是在 Rust 1.49.0 中。如果我这样做: trait Foo {} struct Baz> { x: F,
makefile - 依赖于 make 文件本身
如果 Makefile 本身被更改，一个安全的赌注是将所有目标视为过时的。有没有聪明的方法来添加这种依赖？有没有其他选择？最佳答案一个安全的赌注，但一个可怕的想法。示例:您正在使用 automa
makefile - 依赖于 make 中的远程文件
我有一种情况，我需要根据远程文件在 make 中执行规则。这是我正在尝试做的一个例子(实际的 Makefile 在这里不相关的方式要复杂得多): URL = http://cdn.sstatic.ne
java - `NullPoinerException` 依赖于 `@Autowired`
这是我的第一个 Spring 应用程序，所以请原谅我对此事的无知。我在 @Autowired 依赖项上遇到 NullPoinerException。 14:08:48,415 SEVERE [com
ios - UIPickerView 依赖于 UITableView
我在编程方面没有太多经验，所以这是我的问题: 我正在尝试编写一个转换器应用程序。最后，您可以输入一个数字。然后我有两个组件UIPickerView .使用第一个组件，您可以选择输入格式(例如 °Cel
metaprogramming - 依赖于 haxe 中泛型实现的函数的可选类代码生成
假设我在 Haxe 中有以下类: class Pair { public var first:U = null; public var second:V = null; pub
javascript - 依赖于 Javascript/AJAX？
在很多与向服务器发送请求相关的问题的回答中，我看到提倡使用 Javascript/AJAX。从某种意义上说，我仍然是一个纯粹主义者，因为我首先尝试开发无需使用 Javascript/AJAX 即可完

首页

博学

6Ren·AI

商城

hadoop - 如何在MapReduce中处理一条记录依赖于另一条记录的大文件