- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
代码如下:
xtrain, xtest, ytrain, ytest = train_test_split(xx, yy, test_size=0.50)
clf = MultinomialNB(alpha=1.0)
clf.fit(xtrain, ytrain)
predictions = clf.predict(xtest)
print 'score:', metrics.accuracy_score(ytest, predictions)
标准的东西,但问题就在这里。正如您在下面看到的,分数高得令人难以置信。实际结果(没有显示代码,但只是关于预测与 Y 列的基本报告)是预测有 3621 行属于该类。其中,只有 299 个确实是(真正的阳性)。没有什么比 99% 的准确率更好的了。
score: 0.9942950664902702
num rows: 644004
Y == 1: 651
picked: 3621 | true positives: 299 | false positives: 3322
我不想将其标记为与 MultinomialNB 相关,因为我发现 RandomForestClassifier 给出了相同的结果。这个问题(或者我的问题)似乎与评分函数本身有关。
最佳答案
这听起来像是一个教科书示例,说明了为什么准确性对于严重不平衡的数据集没有意义。
从您提供的汇总统计数据中可以清楚地看出,您的(测试)数据集严重不平衡:在 644004 个样本中,只有 651 个属于正类,或者只有 0.1%(我打赌您的训练集的组成是相似的)。
在这种情况下,很容易证明你得到的准确度确实是现实的(只是没有意义);从准确度的定义来看:
acc = (correctly classified samples)/(total samples)
= (total samples - FP - FN)/(total samples)
忽略您未提供任何信息的漏报 (FN),我们得到:
(644004 - 3322)/644004
# 0.9948416469462923
正如预期的那样,仅略高于您报告的准确度(因为我没有考虑到您也肯定会得到的假阴性 -FN-),但仍在 99% 的范围内。底线是您的准确性是正确的,但无用(即不会告诉您有关模型的任何有用信息)。
<小时/>您应该开始搜索“类别不平衡”,这是一个单独的(且巨大的)子主题,有其自身的特点。直观地说,准确性在这里毫无意义,因为正如您自己的数据所清楚证明的那样,根据数据训练的分类器可以报告其中正类别(通常是感兴趣的类别)仅占所有样本的 0.1%通过简单地将每个样本分类为属于负类,准确率达到 99.9%(这并不完全是这里发生的情况,但希望您能明白这一点)。特殊方法和不同的指标(精度、召回率、F1 分数等)适用于不平衡的数据集......
关于python - sklearn 的metrics.accuracy_score 的结果似乎是错误的,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51659383/
我尝试使用 Keras Tuner 进行超参数优化: import keras from kerastuner import HyperModel from kerastuner.tuners imp
它有一些不错的地方(比如它封装了圈复杂度的概念),我想知道是否有人在“现实生活”中使用过它。如果是这样,你有什么经验?它是衡量规模的有用指标吗(相对于 KLOC 或功能点)? 对于那些想知道我在抽什么
我有一个启用了 Actuator 和 Hystrix 的 spring-boot-app。 Spring-Boot-版本:1.3.1.RELEASE org.springframework.
我在尝试使用 metrics for graphite 时收到 carbon 错误: [listener] invalid line received from client HOST:PORT, i
尝试使用谷歌搜索,但找不到如何在 keras 中实现像 cohen kappa、roc、f1score 这样的 Sklearn 指标作为不平衡数据的指标。 如何在 Keras 中将 Sklearn M
Keras 2.x 取消了我需要使用的一堆有用指标,因此我将旧的metrics.py 文件中的函数复制到我的代码中,然后按如下方式包含它们。 def precision(y_true, y_pred)
在某些情况下, tf.metrics.auc 产生的值与 sklearn.metrics.roc_auc_score 非常不同。 我无法确定这种情况的特殊性是什么,但我能够获得一个可重现的例子: 代码
我正在使用 sklearn,我注意到 sklearn.metrics.plot_confusion_matrix 的参数和 sklearn.metrics.confusion_matrix不一致。 p
我正在使用 Prometheus(prometheus-operator Helm chart)进行内存监控。 在调查值时,我注意到内存使用量 ( container_memory_working_s
由于 codahale-metrics 已移至 io. 下。我们代码中的一个实现使用了类: import com.codahale.metrics.JmxReporter 与依赖版本 3.2.2 现在
为什么有两个不同的属性用于指标报告?是什么让它们与众不同? 如果它们不同,那么何时使用哪一个? 谢谢,阿比 最佳答案 Kafka 使用 2 个库作为其指标: "Yammer" metrics : 这些
我的目标是可视化 vertx 指标 - 例如通过 eventbus 发送的消息计数等。(请考虑以下工具都在我的本地主机上,没有任何东西驻留在单独的机器上) 因此,我使用了 vertx 的 Hawkul
我观察到一件奇怪的事情。 heap.used 随着每次后续的/metrics api 调用而增加。我是唯一使用此应用程序的客户。不知道为什么会发生。有人可以解释一下吗? “堆.已使用”:62495 “
在使用 kubeadm 安装 Kubernetes 后,我试图创建一个水平 pod 自动缩放。 主要症状是kubectl get hpa返回列 TARGETS 中的 CPU 指标作为“未定义”: $
我在 minikube 上启用了 heapster minikube addons start heapster 和自定义指标 minikube start --extra-config kubele
我尝试序列化我的 Map>对象使用 Gson但我收到 JSON 字符串响应。而且我在内部 Map 中有指标值和名称我的代码如下所示: @GetMapping(path = "/showRawKafka
我们正在尝试在台风kubernetes集群上启动metricbeat。但是由于以下原因,它在启动后无法获得一些特定于Pod的事件,例如重新启动等 对应的metricbeat.yaml代码段 # Sta
我是 k8s 的新手,普罗米修斯。我正在尝试使用 prometheus 收集每个 pod 的指标,但由于错误而无法这样做: API ERROR . { "kind": "Status", "a
我使用 xgboost 进行预测,我的主要代码如下: params={ 'booster':'gbtree', 'object':'binary:logistic', 'ear
来自OTel Metrics specification计数器是用于衡量已完成请求数的推荐工具。这稍后可用于计算吞吐率。 Example uses for Counter: count the num
我是一名优秀的程序员,十分优秀!