gpt4 book ai didi

python - 逐行处理 Dask DataFrame

转载 作者:太空宇宙 更新时间:2023-11-03 15:56:33 25 4
gpt4 key购买 nike

我需要处理一个大文件并更改一些值。

我想做这样的事情:

for index, row in dataFrame.iterrows():

foo = doSomeStuffWith(row)
lol = doOtherStuffWith(row)

dataFrame['colx'][index] = foo
dataFrame['coly'][index] = lol

对我来说不好,我不能做 dataFrame['colx'][index] = foo!

我的行数很大,我需要处理大量的列。因此,如果我为每一列执行一个 dataFrame.apply(...),恐怕 dask 可能会多次读取文件。

其他解决方案是手动将我的数据分成 block 并使用 pandas 或将任何内容放入数据库中。但如果我可以继续使用我的 .csv 并让 dask 为我进行 block 处理,那就太好了!

感谢您的帮助。

最佳答案

一般来说,遍历一个数据框,无论是 Pandas 还是 Dask,都可能非常慢。此外,Dask 不支持按行插入元素。这种工作负载很难扩展。

相反,我建议使用 dd.Series.where(参见 this answer)或者在一个函数中进行迭代(在制作副本之后以免在原地操作),然后使用 map_partitions 跨所有调用该函数Dask 数据框中的 Pandas 数据框。

关于python - 逐行处理 Dask DataFrame,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42861234/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com