gpt4 book ai didi

machine-learning - 数据挖掘中的引导数据是什么?

转载 作者:行者123 更新时间:2023-11-30 08:23:21 24 4
gpt4 key购买 nike

最近看到这个词,但实在不知道它指的是什么,在网上查了一下,但收效甚微。谢谢。

最佳答案

抽取您周六起床的时间样本。有些周五晚上你喝了太多酒,所以你很早就醒了(但又回去 sleep 了)。其他日子你会在正常时间醒来。其他日子你会睡懒觉。

结果如下:

[3.1、4.8、6.3、6.4、6.6、7.3、7.5、7.7、7.9、10.1]

您平均起床时间是几点?

现在是 6.8(点钟,即 6:48)。对我来说有点早。

对于您下周六何时醒来的预测有多准确?你能量化你可能犯的错误有多大吗?

这是一个相当小的样本,我们不确定底层过程的分布,因此使用标准参数统计技术可能不是一个好主意†。

为什么我们不随机抽取样本,计算平均值并重复此操作?这将使我们能够估计出我们的估计有多糟糕。

我这样做了好几次,平均值在 5.98 到 7.8 之间

这称为 Bootstrap ,由 Bradley Efron 于 1979 年首次提及。

一种变体称为“jackknife”,您可以在其中对除一个数据集之外的所有数据集进行采样,取平均值,然后重复。折刀平均值为 6.8(与算术平均值相同),范围为 6.4 到 7.2。

另一种变体称为k 折交叉验证,其中您(随机)将数据集分成 k 个大小相等的部分,计算除一个部分之外的所有部分的平均值,然后重复 k次。 5 倍交叉验证平均值为 6.8,范围为 4 到 9。

† 这种分布确实是正态分布。均值的 95% 置信区间为 5.43 至 8.11,相当接近,但大于自举均值。

关于machine-learning - 数据挖掘中的引导数据是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3725279/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com