gpt4 book ai didi

python - H2O 将分数与原始数据集合并

转载 作者:太空宇宙 更新时间:2023-11-03 16:03:08 25 4
gpt4 key购买 nike

我正在使用 H2O 对大型数据集生成预测,并将用户 ID 作为其中一列。然而,一旦我对数据集进行评分,预测数据集就不包含 ID...唯一能让事情正常进行的是分数的顺序与输入数据集的顺序相匹配,在我看来,这是相当草率的。

有没有办法指示 H2O 在预测数据集中保留 ID 列,或者在评分后添加它但仍在 H2O 中?

我对将分数以及带有 ID 的数据集以及使用 cbind 等带到 python 或 R 中不太感兴趣,但如果这是唯一的选择,请插话。

最佳答案

是的,您只需从想要作为最终输出的帧中绑定(bind)信息即可。这是一个完整的示例:我正在做回归,根据患者的年龄和风险类别来预测患者的高度。 (!)

import h2o
h2o.init()

patients = {
'age':[29, 33, 65],
'height':[188, 157, 175.1],
'name':["Tom", "Dick", "Harry"],
'risk':['A', 'B', 'B']
}

train = h2o.H2OFrame.from_python(
patients,
destination_frame="patients"
)

m = h2o.estimators.H2ODeepLearningEstimator()
m.train(["age","risk"], "height", train)
p = m.predict(train)

train["name"].cbind(p["predict"])

由于我没有任何测试数据,为了举例,我根据训练数据进行预测。最后一步是从 train 中获取列,并将其与 p 中的列合并。 (通过分类,您将获得额外的列,您可能想也可能不想包括这些列。)

注意: cbind 操作发生在 H2O 集群中,而不是在客户端上。因此,如果这是分布在多台机器上的 1 亿行数据,那么它就可以很好地工作。

附注执行 m.train(["age","height"], "risk", train) 来进行分类。

关于python - H2O 将分数与原始数据集合并,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40121673/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com