gpt4 book ai didi

hadoop - 加入 RDD 中的特定行

转载 作者:可可西里 更新时间:2023-11-01 16:28:46 25 4
gpt4 key购买 nike

我有一个像这样的 RDD:

[('anger', 166),
('lyon', 193),
('marseilles_1', 284),
('nice', 203),
('paris_2', 642),
('paris_3', 330),
('troyes', 214),
('marseilles_2', 231),
('nantes', 207),
('orlean', 196),
('paris_1', 596),
('rennes', 180),
('toulouse', 177)]

我需要将 paris_1paris_2paris_3 合并到名为 paris 的一行中。

我完全不知道如何继续,也没有找到任何答案。

你能帮帮我吗?

最佳答案

您可以使用正则表达式从您当前的键值中获取城市名称,然后按键减少:

import re 
rdd\
.map(lambda l: (re.sub('[_0-9]', '',l[0]), l[1]))\
.reduceByKey(lambda x,y: x + y)\

[('anger', 166),
('lyon', 193),
('nice', 203),
('paris', 1568),
('troyes', 214),
('marseilles', 515),
('nantes', 207),
('orlean', 196),
('rennes', 180),
('toulouse', 177)]

关于hadoop - 加入 RDD 中的特定行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46759456/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com