gpt4 book ai didi

python - 根据 2 个现有列的值将新列分配(添加)到 dask 数据框 - 涉及条件语句

转载 作者:太空狗 更新时间:2023-10-29 22:12:33 25 4
gpt4 key购买 nike

我想根据 2 个现有列的值向现有的 dask 数据框添加一个新列,并涉及一个用于检查空值的条件语句:

DataFrame 定义

import pandas as pd
import dask.dataframe as dd

df = pd.DataFrame({'x': [1, 2, 3, 4, 5], 'y': [0.2, "", 0.345, 0.40, 0.15]})
ddf = dd.from_pandas(df1, npartitions=2)

方法一试过了

def funcUpdate(row):
if row['y'].isnull():
return row['y']
else:
return round((1 + row['x'])/(1+ 1/row['y']),4)

ddf = ddf.assign(z= ddf.apply(funcUpdate, axis=1 , meta = ddf))

报错:

TypeError: Column assignment doesn't support type DataFrame

方法二

ddf = ddf.assign(z = ddf.apply(lambda col: col.y if col.y.isnull() else  round((1 + col.x)/(1+ 1/col.y),4),axis = 1, meta = ddf))

知道应该怎么做吗?

最佳答案

您可以使用fillna(快速)或者您可以使用apply(缓慢但灵活)

填写

import pandas as pd

import dask.dataframe as dd
df = pd.DataFrame({'x': [1, 2, 3, 4, 5], 'y': [0.2, None, 0.345, 0.40, 0.15]})
ddf = dd.from_pandas(df, npartitions=2)

ddf['z'] = ddf.y.fillna((100 + ddf.x))

>>> df

x y
0 1 0.200
1 2 NaN
2 3 0.345
3 4 0.400
4 5 0.150

>>> ddf.compute()

x y z
0 1 0.200 0.200
1 2 NaN 102.000
2 3 0.345 0.345
3 4 0.400 0.400
4 5 0.150 0.150

当然在这种情况下,因为您的函数使用 y 如果 y 为 null,则结果也将为 null。我假设您无意这样做,所以我稍微更改了输出。

使用申请

正如任何 Pandas 专家都会告诉您的那样,使用 apply 会带来 10 到 100 倍的减速惩罚。请注意。

话虽如此,灵 active 还是很有用的。您的示例几乎可以正常工作,只是您提供的元数据不正确。你告诉 apply 该函数产生一个数据框,而实际上我认为你的函数是为了产生一个系列。您可以让 Dask 为您猜测元信息(尽管它会提示),或者您可以明确指定数据类型。这两个选项都显示在下面的示例中:

In [1]: import pandas as pd
...:
...: import dask.dataframe as dd
...: df = pd.DataFrame({'x': [1, 2, 3, 4, 5], 'y': [0.2, None, 0.345, 0.40, 0.15]})
...: ddf = dd.from_pandas(df, npartitions=2)
...:

In [2]: def func(row):
...: if pd.isnull(row['y']):
...: return row['x'] + 100
...: else:
...: return row['y']
...:

In [3]: ddf['z'] = ddf.apply(func, axis=1)
/home/mrocklin/Software/anaconda/lib/python3.4/site-packages/dask/dataframe/core.py:2553: UserWarning: `meta` is not specified, inferred from partial data. Please provide `meta` if the result is unexpected.
Before: .apply(func)
After: .apply(func, meta={'x': 'f8', 'y': 'f8'}) for dataframe result
or: .apply(func, meta=('x', 'f8')) for series result
warnings.warn(msg)

In [4]: ddf.compute()
Out[4]:
x y z
0 1 0.200 0.200
1 2 NaN 102.000
2 3 0.345 0.345
3 4 0.400 0.400
4 5 0.150 0.150

In [5]: ddf['z'] = ddf.apply(func, axis=1, meta=float)

In [6]: ddf.compute()
Out[6]:
x y z
0 1 0.200 0.200
1 2 NaN 102.000
2 3 0.345 0.345
3 4 0.400 0.400
4 5 0.150 0.150

关于python - 根据 2 个现有列的值将新列分配(添加)到 dask 数据框 - 涉及条件语句,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42212496/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com