gpt4 book ai didi

python - PySpark - 按一个或多个选项卡拆分 RDD 的记录

转载 作者:行者123 更新时间:2023-12-01 04:26:06 25 4
gpt4 key购买 nike

我从输入文件创建了一个 RDD,如下所示:

[u'$, Claw\t\t\t"OnCreativity" (2012)  [Himself]']
[u'$, Homo\t\t\tNykytaiteen museo (1986) [Himself] <25>\n\t\t\tSuuri illusioni (1985) [Guests] <22>']
[u'$, Steve\t\tE.R. Sluts (2003) (V) <12>']

根据制表符“\t”分割此 RDD 中的每条记录很容易,但我想要得到的是根据一个或多个分割的每条记录 选项卡。

我已经尝试过对 Python 执行此操作的常用方法,例如当有人想要根据一个或多个选项卡拆分字符串时,但在尝试拆分 RDD 记录时,这些解决方案似乎在 PySpark 上下文中不起作用。

最佳答案

我不太确定你所说的一组 RDD 是什么意思,但看起来你需要的是一个简单的正则表达式:

import re
pattern = re.compile("\t+")

rdd = sc.parallelize([
u"foo\t\t\t\tbar",
u"123\t\t\t456\t\t789\t0"
])

rdd.map(lambda x: pattern.split(x)).collect()

## [[u'foo', u'bar'], [u'123', u'456', u'789', u'0']]

关于python - PySpark - 按一个或多个选项卡拆分 RDD 的记录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33127177/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com