gpt4 book ai didi

pandas - 我应该如何在分类列中插补 NaN 值?

转载 作者:行者123 更新时间:2023-11-30 09:46:48 26 4
gpt4 key购买 nike

我应该对分类列进行编码并使用标签编码,然后将 NaN 值插入最常见的值,还是还有其他方法?

由于编码需要将数据帧转换为数组,因此插补将需要再次将数组转换为数据帧(所有这些都是针对单个列,并且还有更多类似的列)。

例如,我有变量BsmtQual,它评估地下室的高度并具有以下数量的类别:

Ex  Excellent (100+ inches) 
Gd Good (90-99 inches)
TA Typical (80-89 inches)
Fa Fair (70-79 inches)
Po Poor (<70 inches
NA No Basement

BsmtQual 的 2919 个值中,有 81 个是 NaN 值。

最佳答案

对于您将来遇到的此类不涉及编码的问题,您应该发布在 https://datascience.stackexchange.com/ .

这取决于一些事情。首先,这个变量在你的练习中有多重要?假设您正在进行分类,您可以尝试删除所有不带 NaN 值的行,运行一些模型,然后删除变量并再次运行相同的模型。如果您没有看到准确性下降,那么您可以考虑完全删除该变量。

如果您确实发现准确性下降或由于问题无人监督而无法判断影响,那么您可以尝试其他几种方法。如果您只是想要快速修复,并且没有太多 NaN 或类别,那么您可以直接使用最常见的值进行插补。如果满足前面的条件,这应该不会造成太多问题。

如果您想更准确,那么您可以考虑使用其他变量来预测分类变量的类别(显然,这仅在分类变量与某些其他变量相关时才有效)。您可以为此使用各种算法,包括分类器或聚类。这完全取决于您的分类变量的分布以及您想要投入多少精力来解决您的问题。

(我也只是在学习,但我认为这是你的大部分选择)

关于pandas - 我应该如何在分类列中插补 NaN 值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51460107/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com