gpt4 book ai didi

r - 如何在 R 中的特征散列矩阵上使用 H2o

转载 作者:行者123 更新时间:2023-12-04 10:45:12 34 4
gpt4 key购买 nike

我正在处理中等数据集 (train_data)。还有 124 个变量和 50,00,000 个观测值。对于分类变量,我通过 R 中的 hashed.model.matrix 函数对其使用了特征散列。

## feature hashing
b <- 2 ^ 22
f <- ~ .-1
X_train <- hashed.model.matrix(f, train_data, hash.size=b)

因此,我得到了一个大的 dgCmatrix(稀疏矩阵)作为输出 (X_train)。我如何在此矩阵上使用 H2o 包装器并使用 H2o 中可用的不同算法? H2o 包装器是否采用稀疏矩阵 (dgCmatrix)。这种用法的任何链接/示例都会有所帮助。感谢期待。

期待在 H2o 环境中导入 X_train 以执行以下类型的步骤

# initialize connection to H2O server
h2o.init(nthreads = -1)
train.hex <- h2o.uploadFile('./X_train', destination_frame='train')

# list of features for training
feature.names <- names(train.hex)

# train random forest model, use ntrees = 500
drf <- h2o.randomForest(x=feature.names, y='outcome', training_frame,train.hex, ntrees =500)

最佳答案

您可以将稀疏矩阵保存为 svmlight 稀疏格式,然后使用

train.hex <- h2o.uploadFile('./X_train', parse_type = "SVMLight", destination_frame='train')

svmlight 稀疏格式也将被 h2o.importFile() 检测到,它是一个并行读取器,从客户端指定的位置从服务器拉取信息。

train.hex <- h2o.importFile('./X_train', destination_frame='train')

关于r - 如何在 R 中的特征散列矩阵上使用 H2o,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38870109/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com