gpt4 book ai didi

algorithm - 如何从非实验数据(数据挖掘?)

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:56:22 28 4
gpt4 key购买 nike

  • 我想从一个有很多变量的过程中获得最大的性能,其中很多变量是无法控制的。
  • 我无法进行数千次实验,所以如果我可以进行数百次实验就更好了
    • 改变许多可控参数
    • 收集许多表明性能的参数的数据
    • 对于那些我无法控制的参数,尽可能“正确”
    • 为我能控制的事情梳理出“最佳”值,然后重新开始

感觉这会被称为数据挖掘,您正在处理大量数据,这些数据看起来并不立即相关,但经过一些努力后确实显示出相关性。

那么...我从哪里开始研究这类事物的算法、概念和理论?即使是用于搜索目的的相关术语也会很有用。

背景:我喜欢参加 super 马拉松比赛,并记录每次骑行。我想保留更多数据,并在数百次骑行后能够提取有关我的表现的信息。

然而,一切都在变化——路线、环境(温度、压力、湿度、日照、风、降水等)、燃料、姿态、重量、水负荷等。我可以控制几乎没有什么,但是跑同一条路线 20 次来测试新的燃料制度只会令人沮丧,并且需要数年时间才能完成我想做的所有实验。然而,我可以记录所有这些事情以及更多(自行车 FTW 遥测)。

最佳答案

听起来你想做点什么regression analysis .您肯定有大量数据!


回归分析是统计学和科学中极为常见的建模技术。 (可以说统计是回归分析的艺术和科学。)有许多统计包可以完成您需要的计算。 (我会推荐一个,但我已经过时多年了。)

数据挖掘的名声不好,因为人们常常认为相关性等于因果关系。我发现一个很好的技术是从你知道有影响的变量开始,首先围绕它们建立一个统计模型。所以你知道风、重量和爬升对你的旅行速度有影响,统计软件可以获取你的数据集并计算这些因素之间的相关性。这将为您提供一个统计模型或线性方程:

speed = x*weight + y*wind + z*climb + constant

当您探索新变量时,您将能够通过比较拟合优度指标(如 R 平方)来查看模型是否有所改进。因此,您可能会检查温度或一天中的时间是否会向模型添加任何内容。

您可能想要对您的数据应用转换。例如,您可能会发现自己在寒冷的日子里表现更好。但是非常冷和非常热的天气可能会影响性能。在这种情况下,您可以将温度分配给箱子或 segments : < 0°C; 0°C 至 40°C; > 40°C,或类似的温度。关键是以一种与现实世界中正在发生的事情的合理模型相匹配的方式转换数据,而不仅仅是数据本身。


如果有人认为这不是与编程相关的主题,请注意您可以使用这些相同的技术来分析系统性能。

关于algorithm - 如何从非实验数据(数据挖掘?),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/105996/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com