gpt4 book ai didi

python - 提高 Pandas 数据框插补性能

转载 作者:太空宇宙 更新时间:2023-11-03 15:01:21 25 4
gpt4 key购买 nike

我想使用 pandas 估算一个大数据矩阵 (90*90000) 和一个更大的数据矩阵 (150000*800000)。目前,我正在笔记本电脑上测试较小的数据集(8GB 内存,Haswell 核心 i5 2.2 GHz,较大的数据集将在服务器上运行)。

这些列有一些缺失值,我想用所有行中出现频率最高的值来估算这些值。

我的工作代码是:

freq_val =  pd.Series(mode(df.ix[:,6:])[0][0], df.ix[:,6:].columns.values) #most frequent value per column, starting from the first SNP column (second row of 'mode'gives actual frequencies)
df_imputed = df.ix[:,6:].fillna(freq_val) #impute unknown SNP values with most frequent value of respective columns

插补在我的机器上大约需要 20 分钟。是否有其他实现可以提高性能?

最佳答案

试试这个:

df_imputed = df.iloc[:, 6:].fillna(df.iloc[:, 6:].apply(lambda x: x.mode()).iloc[0])

关于python - 提高 Pandas 数据框插补性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37679553/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com