gpt4 book ai didi

python - 使用引导来增加样本数量是否有意义?那么,怎样才能实现呢?

转载 作者:行者123 更新时间:2023-11-30 22:26:49 24 4
gpt4 key购买 nike

我有 15 个样本,做回归分析有点小。

有人告诉我,使用引导技术增加样本数量将使我的数据更具统计意义。所以我尝试了。

我首先尝试的是通过 Python 中 scikit-learn 的“重新采样”功能将样本计数从 15 增加到 1000。

http://scikit-learn.org/stable/modules/generated/sklearn.utils.resample.html

但是当我看到“resample”函数的源代码时,似乎没有关于引导的内容。

所以,这是我的问题。

问题 1:使用 Bootstrapping 技术将 15 个样本重采样为 1000 个样本是否具有统计意义?

Q2:如果可以,在Python环境下如何实现?

谢谢。

最佳答案

Q1。虽然 bootstrap 本身是一种广泛使用且统计上有效的技术,但 15 个样本可能太小,无法做任何有用的事情。

可能存在特定领域的原因,导致您认为 15 个样本代表了您感兴趣的总体。在这种情况下,您可以使用 Bootstrap 。您可能需要考虑的一件事是将 Bootstrap 与数据的变化相结合。即每次对数据进行重新采样时,向新数据添加一些噪声,然后将其附加到原始数据集。

这是了解引导技术及其变体的绝佳资源: http://www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf

第二季度。使用 sklearn 函数,您走在正确的轨道上。正如在根据文档,重采样函数实现了 Bootstrap 的一个步骤。

基本上,您需要做的是运行一个循环,对原始数据调用重新采样函数,并将其附加到新的 DataFrame,直到新 DataFrame 的大小为 1000。注意:新 DataFrame 还应包含原始数据数据。

重采样函数将返回随机选择的数据子集。随机子集中的观测值数量等于 n_samples 的值。例如,如果设置 n_samples=10,则替换函数将返回 10 个数据点。如果设置n_samples=15,则每次重新采样都会返回整个数据集。

您需要考虑的另一个参数是替换。如果replace为True,则原始数据中的数据点可以在replace返回的子集中重复。如果replace为False,则原始数据中的每个数据点只能在子集中出现一次。

这些参数的选择取决于您拥有的数据,但合理的方法可能是设置 n_samples < 15 并替换=True 以增加重新采样返回的数据的变化。

关于python - 使用引导来增加样本数量是否有意义?那么,怎样才能实现呢?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47119550/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com