gpt4 book ai didi

machine-learning - 在这种情况下,我应该使用哪个分类器或 ML SDK?

转载 作者:行者123 更新时间:2023-11-30 09:54:25 26 4
gpt4 key购买 nike

训练数据(包括训练集和验证集)大约有80百万个样本,每个样本有200个密集浮点。有 6 标记的类别,它们是不平衡的。

在常用的机器学习库中(例如,libsvmscikit-learnSpark MLlib随机森林 code>、XGBoost 或其他),我应该使用哪个?硬件配置方面,该机拥有24 CPU核心和250 Gb内存。

最佳答案

我建议使用 scikit-learn 的 SGDClassifier由于它是在线的,因此您可以将训练数据分块(小批量)加载到内存中并逐渐训练分类器,这样您就不需要将所有数据加载到内存中。

它高度并行且易于使用。您可以将 warm_start 参数设置为 True,并在将 X、y 的每个 block 加载到内存中时多次调用 fit,或者可以使用partial_fit 方法作为更好的选项。

clf = SGDClassifier(loss='hinge', alpha=1e-4, penalty='l2', l1_ratio=0.9, learning_rate='optimal', n_iter=10, shuffle=False, n_jobs=10, fit_intercept=True)
# len(classes) = n_classes
all_classes = np.array(set_of_all_classes)
while True:
#load a minibatch from disk into memory
X, y = load_next_chunk()
clf.partial_fit(X, y, all_classes)
X_test, y_test = load_test_data()
y_pred = clf.predict(X_test)

关于machine-learning - 在这种情况下,我应该使用哪个分类器或 ML SDK?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37290316/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com