gpt4 book ai didi

python - Scikit 的 LinearSVC 分类器的核外训练

转载 作者:太空宇宙 更新时间:2023-11-03 11:06:15 26 4
gpt4 key购买 nike

您如何训练 Scikit 的 LinearSVC在太大或不切实际而无法放入内存的数据集上?我试图用它来对文档进行分类,并且我有几千条标记的示例记录,但是当我尝试将所有这些文本加载到内存中并训练 LinearSVC 时,它消耗了我超过 65% 的内存,我不得不在我的系统变得完全没有响应之前将其杀死。

是否可以将我的训练数据格式化为单个文件并使用文件名将其输入 LinearSVC 而不必调用 fit() 方法?

我找到了 this指南,但它只真正涵盖分类,并假设训练是增量完成的,这是 LinearSVC 不支持的。

最佳答案

据我所知,像 LinearSVC 这样的非增量实现需要整个数据集来训练。除非您创建它的增量版本,否则您可能无法使用 LinearSVC。

scikit-learn 中有一些分类器可以增量使用,就像您在使用 SGDClassifier 的指南中找到的那样。 SGDClassifier 具有 *partial_fit* 方法,可让您对其进行批量训练。还有一些其他分类器支持增量学习,例如 SGDCLassifier , Multinomial Naive BayesBernoulli Naive Bayes

关于python - Scikit 的 LinearSVC 分类器的核外训练,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18517119/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com