gpt4 book ai didi

machine-learning - 如何在随机森林模型训练中最好地使用邮政编码?

转载 作者:行者123 更新时间:2023-11-30 08:33:58 25 4
gpt4 key购买 nike

我有一个带有邮政编码列的数据集。它们在输出中具有一定的意义,我想将其用作一项功能。我正在使用随机森林模型。

我需要有关使用邮政编码列作为功能的最佳方法的建议。 (例如,我应该获取该邮政编码的纬度/经度,而不是直接输入邮政编码等)

提前致谢!

最佳答案

处理邮政编码或任何高基数分类列的常见方法称为“目标编码”或“影响编码”。在H2O,您可以申请target encoding到任何分类列。从 H2O 3.20 开始,这仅在 R 中可用,但在下一个稳定版本 3.22 中,它将在所有客户端中可用(JIRA 票证 here )。

如果您使用 R,我的建议是尝试目标编码和 Lauren 提到的 GLRM 方法并比较结果。如果您使用 Python 或其他语言,请暂时尝试 GLRM,并在 H2O 3.22 发布时尝试目标编码。

关于machine-learning - 如何在随机森林模型训练中最好地使用邮政编码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52281173/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com