gpt4 book ai didi

python - dask 中的 flatMap

转载 作者:太空宇宙 更新时间:2023-11-04 00:44:48 25 4
gpt4 key购买 nike

许多函数式语言都定义了 flatMap 函数,它的工作方式类似于 map 但可以展平 返回值。Spark/pyspark 有 http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD.flatMap

在 dask 中获得它的最佳方式是什么?我的代码如下所示:

import dask.bag as db
import json
from tools import get_records

records = db.read_text(json_file).map(json.loads).map(get_records)

get_records 返回字典列表。我只需要将它们链接成一个序列。

最佳答案

您可能需要 .flatten method

In [1]: import dask.bag as db

In [2]: b = db.from_sequence([1, 2, 3, 4, 5])

In [3]: def f(i):
...: return list(range(i))
...:

In [4]: b.map(f).compute()
Out[4]: [[0], [0, 1], [0, 1, 2], [0, 1, 2, 3], [0, 1, 2, 3, 4]]

In [5]: b.map(f).flatten().compute()
Out[5]: [0, 0, 1, 0, 1, 2, 0, 1, 2, 3, 0, 1, 2, 3, 4]

因此,代替连接的“flatMap”操作,有两个操作“map”和“flatten”,您可以单独使用它们,也可以根据需要进行链接。

关于python - dask 中的 flatMap,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40186628/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com