gpt4 book ai didi

apache-spark - Spark朴素贝叶斯模型持久化: understanding pi & theta

转载 作者:行者123 更新时间:2023-12-03 03:41:27 25 4
gpt4 key购买 nike

我正在研究基于朴素贝叶斯的实现,并且我正在使用 Spark 2.0,就模型调整而言,我用它完成了,但我陷入了模型的持久性,我很清楚模型Spark 2 中的持久性支持,但我担心的是朴素贝叶斯保存模型的内容,特别是在保存模型的数据文件夹中,它存储 pi (向量)的值,该值取决于我们拥有的类的数量,其他是 theta (矩阵)取决于朴素贝叶斯的类别数量和特征数量,因此模型数据文件夹的内容排序取决于实际数据,并将随着数据大小的增长而增长,

任何人都可以帮助我理解它到底存储什么吗?我基本上需要同样的信息来决定将这些数据放在我的生产架构中的何处。

我尝试在这些方面找到很多内容,但不明白它们到底是什么..在 Spark java 文档中,它们被提到为

  • @param pi 类先验的日志,其维度为 C(类数)
  • @param 类条件概率的 theta 对数,其维度为 C(类数)x D(特征数)

但我无法理解这些值到底是什么以及为什么需要它们,如果有人帮助理解将会有所帮助

问题还涉及到它们是在 2.0 版本中添加的事实,因此在 1.6 版本之前,它可以在没有 pi 和 theta 的情况下工作

最佳答案

这两个属性构成了朴素贝叶斯模型。朴素贝叶斯用于在给定特征向量 X(您的输入向量)的情况下预测 C 类。为此,它依赖于贝叶斯定理。通过一些数学魔法,您可以优化贝叶斯定理进行分类,剩下的是:

P(C|X) = P(C) * P(x1|C) * ... * P(xn|C)。

或进一步优化:

P(C|X) = log(P(C)) + log(P(x1|C)) + ... + log(P(xn|C))

旁注:符号“=”在这种情况下并不准确,它更像是某种近似值。

因此模型需要知道这些概率。 P(C) 似乎是 pi 向量。 P(xn|C) 似乎是 theta 矩阵。 Theta 矩阵不会增长到无穷大。大小取决于输入变量 xn 的数量以及它们可以具有的可能值。

关于apache-spark - Spark朴素贝叶斯模型持久化: understanding pi & theta,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39208372/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com