- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
假设我想预测三年级学生大学毕业的可能性百分比 (1-100%)。我有一个包含 100 个观察值的训练数据集,所有这些观察值都包含被分类为“极有可能毕业”的学生的示例。我有另一个数据集,其中包含 500 个观察值(我们不知道是否有任何观察值已毕业)。
我的问题是:我将如何获得所有 500 名学生的概率值,该值描述了他们根据多种特征(1-5 个特征,例如成绩、住在校园或校外等)使用第一个数据集训练的模型?您建议采用什么方法?
最佳答案
我建议您使用OneClassSVM这是一种无监督的异常值检测。由于您的训练数据仅包含来自一类的样本,即“很有可能毕业”,因此训练逻辑回归或神经网络可能无法在这里工作。最好考虑一下您拥有的任何数据都不是异常值,而其他类别则不太可能成为异常值。一旦您拟合了 OneClassSVM 模型,您就可以使用decision_function获得到分离超平面的有符号距离,对于内点来说该距离为正,对于离群点来说该距离为负。然后,您可以使用 sigmoid 函数来计算概率。我在下面展示了一个示例:
from sklearn.svm import OneClassSVM
X = [[0], [0.44], [0.45], [0.46], [1]]
clf = OneClassSVM(gamma='auto').fit(X)
def sigmoid(x):
return 1/(1+np.exp(-x))
prob = clf.decision_function([[0.455]]) # Not an outlier
sigmoid(prob)
#array([0.50027839])
prob = clf.decision_function([[5]]) # An outlier
sigmoid(prob)
#array([0.11356841])
关于python - 预测模型输出百分比 'likelihood' ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59997232/
对 R 和机器学习非常陌生,但是我必须开展一个项目来根据许多变量(例如,预测客户流失率)来预测客户流失。服务期限、发行的信用票据数量、错过交货的数量、价格上涨的数量等。 我正在使用 rpart 和 r
我有一个流读取准备将特征数据发布到一个已经注册的模型中。所有代码都在 Python 中。以下模型和元数据在常规笔记本中的流之外运行。在流中是另一回事。主要问题是从流中写入的数据(写入目标表)具有 NU
我正在尝试在 keras 中为时间序列实现一个简单的 LSTM 预测模型。我有 10 个时间序列,lookback_window=28,特征数为 1。我需要预测下一个值(timesteps=28,n_
我有一些用 R 语言开发的分类模型,具有 glm、rpart 等函数。从 Java 调用这些模型的计算效率最高的方法是什么?我看过 JRI,但看起来有很多基于文本的 R 调用。 有没有办法以低开销从
假设我有一个每月粒度的数据集,其中包含以下列: 时间戳 问题(即 GitHub 问题的数量) 2016-2019 年每个月都有数据,所以我相应地划分了数据。 training_data : 2016-
我是一名优秀的程序员,十分优秀!