python - 使用 MapReduce 是否可以保证具有相同键的所有值都将进入相同的 reducer？-6ren

python - 使用 MapReduce 是否可以保证具有相同键的所有值都将进入相同的 reducer？

转载作者：可可西里更新时间：2023-11-01 15:05:45

25

4

我有一个正在处理的 MapReduce 项目(具体来说，我正在使用 Python 和库 MrJob 并计划使用 Amazon 的 EMR 运行)。这是总结我遇到的问题的示例:

我有数千 GB 的 json 文件，里面装满了客户数据。我需要去运行每个客户 json 行/输入/对象的每日、每周和每月报告。

所以对于我目前做的 map 步骤:

map_step(_, customer_json_object)
    c_uuid = customer_json_object.uuid
    if customer_json_object.time is in daily_time_range:
        yield "%s-%s" % (DAILY_CONSTANT, c_uuid), customer_json_object
    if customer_json_object.time is in weekly_time_range:
        yield "%s-%s" % (WEEKLY_CONSTANT, c_uuid), customer_json_object
    if customer_json_object.time is in monthly_time_range:
        yield "%s-%s" % (MONTHLY_CONSTANT, c_uuid), customer_json_object

然后是reducer

reducer_step(key, customer_info)
    report_type, c_uuid = key.split("-")
    yield None, Create_Report(report_type, customer_info)

我的问题是:

我是否可以保证所有具有相同键的数据(这里指的是特定客户和特定报告类型的所有数据)都将由同一个 reducer 处理？我的 Create_Report 不能分布在多个进程中，因此我需要一个进程处理报告所需的所有数据。

我担心如果一个键的值太多，那么它们可能会分散在 reducer 或其他东西中。然而，从我读到的内容来看，这听起来像是它的工作原理。

非常感谢!!我刚刚意识到我需要在 map 步骤中多次 yield，所以这是我的最后一 block 拼图。如果这能被弄清楚，那将是一个巨大的胜利，因为我无法在垂直方向上进一步扩展我的小服务器......

如果从上面的代码中看不清楚，我有数千个客户(或真正的用户，没有人付钱给我)数据的 json 行文件。我希望能够为这些数据创建报告，并且报告代码的生成方式不同，具体取决于每月、每周或每天。实际上，在此之前我也在对数据进行重复数据删除，但这是我的最后一步，实际生成输出。非常感谢您花时间阅读本文并提供帮助!!

最佳答案

在一般的 MapReduce 和 Phyton 库 MrJob 中，它适用于:

A reducer takes a key and the complete set of values for that key in the current step, and returns zero or more arbitrary (key, value) pairs as output.

来自 MrJob 文档 - https://pythonhosted.org/mrjob/guides/concepts.html#mapreduce-and-apache-hadoop

回到你的问题:

Am I guaranteed here that all my data with the same key ... will be handled by the same reducer?

是的，此外，属于同一个键的所有值都被传递给你的 reducer 的同一个调用。

关于python - 使用 MapReduce 是否可以保证具有相同键的所有值都将进入相同的 reducer？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28556250/

25

4

0

文章推荐： hadoop - Flume to HDFS 将一个文件分割成很多文件

文章推荐：时间:2019-05-06 标签:c++unique_ptr参数传递

c++ - 为什么我可以 mov 进入 eax，进入 ax，但不能进入 al，甚至可能进入 ah？
如果我 mov, eax 12345 和之后的 mov var, eax (假设 var 是一个 32 位的 int 等..等等)并输出 var 稍后它会正确输出。与 ax 相同。 mov ax,
php - if 进入 for 时的奇怪行为
我有这个代码: for($nrt=0; $nrt"; if($sidesIndexes[$nrt]==$nrt) { echo "am I in??? ".$sidesInde
进入 channel 无限循环不阻塞
我正在阅读The Go Programming Language的8.5章，并陷入一些代码。下面的代码列表。 func main() { naturals := make(chan int)
MYSQL 进入 OUTFILE
我写了一个 MySQL 查询用于将数据导出到文本文件。查询运行成功，但结果与我的预期不符。我想在列之间没有间距的结果。 select sample_export_record1_2013.
excel - 进入 ThisWorkbook 代码区
在普通的 Excel 窗口中，我可以打开 VBE 并通过触摸键序列插入一个新模块:ALT+F11、ALTim 全部不使用鼠标。有没有办法打开 VBE 并导航到本工作手册不使用鼠标的代码区域？最佳
reactjs - Axios 进入 .then 未按预期工作
我正在使用 axios 发出 http 请求。在 .then() 内部，我正在使用另一个 axios 调用。最后，我有第三个 then()，它应该在第二个 then 之后运行，但实际上并没有这样做。
iphone - MPMoviePlayerController 进入 View
我需要在 cocos2d 项目中播放视频..我的问题是:如何将 MPMoviePlayerController 放入我的 View 中，如下所示:？ UIView *theView = [[CCDir
javascript - Angular 进入 Controller
我正在学习 Angular。以下代码有效: .controller('abc', function ($scope, $http) { $http.get("/Handlers/Authenticat
c# - ViewModel 进入 View
目前我正在使用 WPF 学习 C#。我的主要方法是尽我所能使用 MVVM 模式，但现在我有点困惑。在我所有 View 的应用程序中，我有一个 View 模型: private DruckviewVi
javascript - IF 进入 Google 脚本中关于提取电子邮件的循环
关于将 G 邮件提取到 Google 电子表格，我该如何添加 IF 以按主题驳回特定电子邮件？例如:电子邮件回复(主题中带有“RE:”)。我不希望这些电子邮件出现在我的电子表格中。我尝试过使用 LO
javascript - 进入 Spotify 阵列
我正在尝试使用 Spotify API 并进入数组。 const App = () => { const [isLoading, setIsLoading] = useState(true);
symfony - 如何使用条件 if 进入 assetic
我有一个 html 模板，并且有一个条件为 --> 的代码 --> window.jQuery || document.write(""+"");
java - 进入 UI 线程
我正在开发一个 Android 应用程序，该应用程序会暴力破解从 int 创建的 MD5 和。暴力破解部分工作正常。 (我可以sysout最终值并且它是正确的。) 我在将输出值发送到警报对话框时遇到
jquery - D3 进入/退出路径圆组
我正在创建一个界面，用户可以通过该界面生成多系列折线图，并控制绘制哪些数据集。要绘制哪些数据集由复选框控制。页面加载时，默认数据集以图表形式呈现，并且 $('input:checkbox.data-
javascript - 进入/退出未正确清理强制布局中弹出的节点/链接
我尝试将有向无环图绘制为力布局。但是我注意到，尽管为每个组元素灌输了进入/退出条件，弹出的节点/链接并没有从 DOM 中删除它们自己。相反，弹出的节点/链接在力布局中卡住；这意味着没有调用进入/退
c# - 调试问题 - 进入 - C#
这里是新手。我不知道它是怎么发生的，但我正在处理一个程序，当我去调试并进入时，黄色箭头走到了我代码的最后并跳过了整个 block 。有快速解决方法吗？最佳答案按 F11，或单击工具栏上的“Step
android - 进入 ListNavigation 单击操作栏中的
我的 Action 栏 sherlock 中有一个列表。我想在用户点击该列表时得到。我不想知道用户何时点击某个项目，我已经知道 (onNavigationItemSelected)。在我的 onCr
MySQL 日期 -> 进入 EuroDate
** 你好 **我如何从 ci 中的 mysql 日期获取 eurodate 来工作......无法弄清楚 - 请帮忙想要获取日期 YY-mm- dd -> dd-mm-yy提前致谢最佳答案 $t
bash - cd 进入 while 循环中的目录不起作用
我有以下脚本: #!/bin/bash ls -1 | while read d do [[ -f "$d" ]] && continue echo $d cd $d done
c# - 进入/退出方法时如何增加/减少缩进？
TL;DR - 跳转到最后一段背景我正在执行一些数据驱动测试，并将日志文件用作测试输出之一。它的工作原理是这样的- 读取文件夹中的第一个文件处理第一行并转换为测试运行测试执行验证 1 ...

首页

博学

6Ren·AI

商城

python - 使用 MapReduce 是否可以保证具有相同键的所有值都将进入相同的 reducer？