gpt4 book ai didi

machine-learning - 具有未定义值的交叉验证性能聚合

转载 作者:行者123 更新时间:2023-11-30 09:01:10 25 4
gpt4 key购买 nike

我想知道在交叉验证中计算多次平均性能的正确方法是什么。

例如,我有 5 次 F1 的折叠,其值为

[0.5 0.3 0.25 空 0.7]

该系统的平均 F1 是多少?

  • 我可以将 null 视为 0 或仅输出 null 作为平均结果。
  • 或者,我可以只取定义的四个值并除以 4,但这也不正确,因为如果有某个系统在此折叠上执行 0.1,那么它的性能会比具有 null 的系统更差,但是, 0.1 比 null 好得多。

最佳答案

这确实取决于上下文。 (在下文中,我引用了 numpy,仅供使用它的人将来引用。)

  • 如果由于问题的 cv-fold 未定义而导致 null 发生,那么您可以忽略它(例如,通过调用 np.nanmean 。大概,对于“现实生活” ,您就不会拥有相当于此类折叠的数据集。

  • 如果由于预测器在此折叠完全失败而导致 null 发生,那么结果可能是(这取决于您的解释): p>

    • nan,因为整体预测器行为未定义(在本例中,您可能只使用 np.mean )。

    • 如果您发现给定的集合出现故障,并且仅输出一些任意结果(在这种情况下,您可以使用f1 score)。

<小时/>

到目前为止,您能做的最好的事情就是找出该值的原因,然后消除它。理想情况下,这应该永远不会发生,并且可能应该被视为一个错误;在解决错误之前,只需考虑您的估计器不适合性能估计。

关于machine-learning - 具有未定义值的交叉验证性能聚合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35653925/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com