gpt4 book ai didi

python - 并行化 Pandas 应用

转载 作者:太空狗 更新时间:2023-10-30 01:12:55 26 4
gpt4 key购买 nike

刚接触 pandas,我已经想并行化一个按行应用操作。到目前为止我找到了Parallelize apply after pandas groupby但是,这似乎只适用于分组数据框。

我的用例不同:我有一个假期列表,对于我当前的行/日期,我想找到从这一天到下一个假期之前和之后的无天数。

这是我通过应用调用的函数:

def get_nearest_holiday(x, pivot):
nearestHoliday = min(x, key=lambda x: abs(x- pivot))
difference = abs(nearesHoliday - pivot)
return difference / np.timedelta64(1, 'D')

我怎样才能加快速度?

编辑

我对 pythons 池进行了一些试验 - 但它既不是很好的代码,也没有得到我的计算结果。

最佳答案

对于并行方法,这是基于 Parallelize apply after pandas groupby 的答案:

from joblib import Parallel, delayed
import multiprocessing

def get_nearest_dateParallel(df):
df['daysBeforeHoliday'] = df.myDates.apply(lambda x: get_nearest_date(holidays.day[holidays.day < x], x))
df['daysAfterHoliday'] = df.myDates.apply(lambda x: get_nearest_date(holidays.day[holidays.day > x], x))
return df

def applyParallel(dfGrouped, func):
retLst = Parallel(n_jobs=multiprocessing.cpu_count())(delayed(func)(group) for name, group in dfGrouped)
return pd.concat(retLst)

print ('parallel version: ')
# 4 min 30 seconds
%time result = applyParallel(datesFrame.groupby(datesFrame.index), get_nearest_dateParallel)

但我更喜欢@NinjaPuppy 的方法,因为它不需要 O(n * number_of_holidays)

关于python - 并行化 Pandas 应用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39284989/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com