gpt4 book ai didi

python - 如何在巨大的数据集中查找和转换 pandas 数据框中的缺失值?

转载 作者:行者123 更新时间:2023-11-30 09:39:58 25 4
gpt4 key购买 nike

我正在处理一个大小为 (891221 X 85) 的巨大数据集。数据中的每一列都有不同的缺失值或未知值指示。例如:第 1 列缺失值用 -1 或 X 表示,第 2 列缺失值用 XX 和 0 等表示。

现在我尝试循环数据集中的每个元素,并使用以下代码将每个缺失值转换为 np.nan:

for i in range(data.shape[1]):
for j in range(data.shape[0]):
if data.iloc[j,i] in indicators[i]:
data.iloc[j,i] = np.nan

由于数据约有 7500 万条数据条目,因此此过程可能需要几天时间。有没有办法更有效地做到这一点?

最佳答案

尝试:

for i,col in enumerate(data.columns):
for ind in indicators[i]:
data[col].replace(ind, np.nan)

文档:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.replace.html

关于python - 如何在巨大的数据集中查找和转换 pandas 数据框中的缺失值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59438206/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com