gpt4 book ai didi

python dask dataframe将元组列拆分为两列

转载 作者:太空宇宙 更新时间:2023-11-03 11:18:47 28 4
gpt4 key购买 nike

我正在使用 python 2.7 和 dask

我有一个包含一列元组的数据框,我是这样创建的:

table[col] = table.apply(lambda x: (x[col1],x[col2]), axis = 1, meta = pd.Dataframe) 

我想将这个元组列重新转换成两个单独的列在 Pandas 中我会这样做:

table[[col1,col2]] = table[col].apply(pd.Series) 

这样做的目的是 dask dataframe 不支持多索引,我想根据多列使用 groupby,并希望创建一个元组列,它会给我一个包含我需要的所有值的单个索引(请忽略效率与多索引,因为还没有完全支持这个 dask 数据框)

当我尝试使用此代码使用 dask 解压元组列时:

rxTable[["a","b"]] = rxTable["tup"].apply(lambda x: s(x), meta = pd.DataFrame, axis = 1)

我收到这个错误

AttributeError: 'Series' object has no attribute 'columns'

当我尝试

rxTable[["a","b"]] = rxTable["tup"].apply(dd.Series, axis = 1, meta = pd.DataFrame)

我也一样

我怎样才能像在 Pandas 中那样毫无问题地将一列元组转换为两列?

谢谢

最佳答案

我发现最好的是转换成 pandas dataframe 然后转换列,然后返回 dask

df1 = df.compute()
df1[["a","b"]] = df1["c"].apply(pd.Series)
df = dd.from_pandas(df1,npartitions=1)

这会很好用,如果 df 对内存来说太大了,你可以:1.只计算想要的列,将其转换为两列,然后使用合并将拆分结果放入原始df2.将df拆分成chunk,然后将每个chunk转换成一个hd5文件,然后使用dask将整个hd5文件读入dask dataframe

关于python dask dataframe将元组列拆分为两列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47376786/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com