gpt4 book ai didi

python - 在机器学习中从多维空间中选择不同数据集子样本的方法?

转载 作者:行者123 更新时间:2023-11-30 09:10:18 25 4
gpt4 key购买 nike

我正在考虑创建一个尽可能多样化的训练集,同时将数据压缩到较小的大小(取决于数据集中数据点的相似程度)。这是为了防止过度拟合数据中相对不重要的部分。解释如下:

问题描述如下:我正在用赛车数据进行训练,有很大一部分道路是比较直的。这部分数据包含的方差相对较小,并且相对不重要。只要留在路上并加速即可。在我看来,最困难的部分是:弯道预期、弯道的速度/角度。

为了简化问题并最大化这部分的学习,我想仅选择显着不同的数据点。因此,显着减少直线零件(以及相同类型的拐角)上的数据,同时保留不同类型拐角上的数据。数据基本上是 50 维的向量。我想保留维数,只是想让这个多维空间中数据点的密度更加均等。我也不知道有什么好的方法来量化“更平等”。因此这个问题本质上是一个关于数据预处理的问题。

是否有任何方法已经做到了这一点,或者是否有其他方法可以实现相同的目标?

最佳答案

如果我正确理解了您的数据集,您需要平滑向量,然后获得原始向量与平滑向量的最显着偏差。 Savitzky–Golay filter是通过数组(向量)平滑数据的常用方法。如果您决定使用 Python,那么 scipy.signal.savgol_filter就是您所需要的。

A good answer related to the topic.

关于python - 在机器学习中从多维空间中选择不同数据集子样本的方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40909701/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com