gpt4 book ai didi

python - 使用总体样本的分类器 : scaling the population and then sampling/scaling the sample/scaling the X_TRAIN split of the sample?

转载 作者:行者123 更新时间:2023-12-01 07:52:20 29 4
gpt4 key购买 nike

我正在构建一个逻辑回归分类器。

我从一组 500.000 条记录开始,我只想使用其中的一个样本。

你有什么建议:

1) 缩放总体然后采样2)缩放样本3) 仅缩放样本的 X_TRAIN 分割?

为什么?

我的考虑是:

1)如果样本代表总体,这可能有意义(我应该测试它吗?)

2)这并不令人信服,因为我会选择多个样本来查看分类器的泛化水平,并且每次都使用稍微不同的缩放器听起来不太好。另外,它还会使 X_train、X_test 分割产生偏差

3)这不会使X_train,X_test分割产生偏差,但对点有同样的疑问2)

您会推荐什么以及为什么?

最佳答案

很好的问题。几年前刚开始的​​时候,我心里也有类似的问题。让我试着给出我的两分钱。

我建议创建一个用于缩放 X_train 的缩放器,存储该缩放器并查看是否使用它来转换 X_test。根据中心性定理,如果进行了随机抽样,则应该具有与总体属性相似的均值和方差。在大多数情况下,缩放器基于这两个参数工作。如果它代表总体参数,只要测试数据来自同一总体,缩放器就应该起作用。如果它不起作用,您需要更多样本进行训练或进行另一次采样尝试以使 X_train 代表总体。

通过这样做,您可以确定该模型也适用于新样本,只要它是由相同过程生成的。毕竟,该模型不是为了测试而构建的,而是为了在生产中做一些有用的工作。

我的建议是使用 3) 缩放 X_train 并使用缩放器来转换 X_test。

关于python - 使用总体样本的分类器 : scaling the population and then sampling/scaling the sample/scaling the X_TRAIN split of the sample?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56148094/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com