gpt4 book ai didi

r - 如何在 R 中使用大数据对多个变量进行热编码?

转载 作者:行者123 更新时间:2023-12-02 20:08:19 25 4
gpt4 key购买 nike

我目前有一个包含 260,000 行和 50 列的数据框,其中 3 列是数字,其余是分类。我想要对分类列进行一次热编码,以便执行 PCA 并使用回归来预测类别。我怎样才能在 R 中完成下面的例子?

Example:
V1 V2 V3 V4 V5 .... VN-1 VN

to

V1_a V1_b V2_a V2_b V2_c V3_a V3_b and so on

最佳答案

您可以使用model.matrixsparse.model.matrix。像这样的事情:

sparse.model.matrix(~.-1, data = your_data)

~. 告诉 R 您的整个表格(.)是某个假设模型的右侧,而 -1 > 表示忽略拦截。如果没有 -1,您的第一列将是 1 的向量。

关于r - 如何在 R 中使用大数据对多个变量进行热编码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43578647/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com