gpt4 book ai didi

machine-learning - 如何估计二元分类器所需的内存量?

转载 作者:行者123 更新时间:2023-11-30 09:38:45 24 4
gpt4 key购买 nike

假设我想创建一个二元分类器来检测垃圾邮件消息。我有 10 亿个训练样本和大约 20 个特征。我希望经过训练的分类器适合内存(我将在云和磁盘操作上运行它,实际上 rpc 调用将非常昂贵)。

我的问题是:如何估计所需的内存量?假设我的分类器是随机森林,我对训练集中垃圾邮件消息的分布一无所知。

只有数字:两个类、十亿个示例、20 个特征。

这样的估计可能吗?怎么办?

最佳答案

对于垃圾邮件分类,您可能应该对单词出现特征 + 双连词 + 链接中出现的域名或 IP 地址 + 从 header 和 SMTP 上下文中提取的内容运行线性分类器。

在这种情况下,您可以对 2 ** 18 维度上的特征(例如使用 vowpal wabbit)乘以每个特征 8 个字节进行哈希处理,从而在内存中生成 2MB 的模型。

关于machine-learning - 如何估计二元分类器所需的内存量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9074140/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com