gpt4 book ai didi

python - 使用 scikit-learn 对大型数据集进行一次性编码

转载 作者:太空宇宙 更新时间:2023-11-04 01:15:28 25 4
gpt4 key购买 nike

我有一个大型数据集,我计划对其进行逻辑回归。它有很多分类变量,每个变量都有数千个特征,我计划在这些特征上使用一种热编码。我将需要小批量处理数据。我的问题是如何确保一个热编码在第一次运行期间看到每个分类变量的所有特征?

最佳答案

没有办法找出您的分类特征可以采用哪些可能的值,这可能意味着您必须完整地检查您的数据一次才能获得分类变量的唯一值列表。

之后是将分类变量转换为整数值并将 OneHotEncoder 中的 n_values= kwarg 设置为与每个不同值的数量相对应的数组变量可以取。

关于python - 使用 scikit-learn 对大型数据集进行一次性编码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24966984/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com