gpt4 book ai didi

algorithm - 如何预测数据质量?

转载 作者:塔克拉玛干 更新时间:2023-11-03 06:04:31 24 4
gpt4 key购买 nike

如果我提前措辞有误,我非常抱歉,但我有一个很大的数据集,我正在尝试分析它,但大部分数据都不正确,需要一些帮助来弄清楚如何选择正确的数据。

这里有更多信息可以更清楚地了解它。例如我有以下内容:

color  value   quantity
red 20 2
blue 5 8
green 10 2

total 100

如果只给出值和总数,我会发现有 36 个可能的答案:

#1 Found : 20.0*0.0 red + 5.0*0.0 blue + 10.0*10.0 green = 100.0
#2 Found : 20.0*0.0 red + 5.0*2.0 blue + 10.0*9.0 green = 100.0
#3 Found : 20.0*0.0 red + 5.0*4.0 blue + 10.0*8.0 green = 100.0
#4 Found : 20.0*0.0 red + 5.0*6.0 blue + 10.0*7.0 green = 100.0
#5 Found : 20.0*0.0 red + 5.0*8.0 blue + 10.0*6.0 green = 100.0
#6 Found : 20.0*0.0 red + 5.0*10.0 blue + 10.0*5.0 green = 100.0
#7 Found : 20.0*0.0 red + 5.0*12.0 blue + 10.0*4.0 green = 100.0
#8 Found : 20.0*0.0 red + 5.0*14.0 blue + 10.0*3.0 green = 100.0
#9 Found : 20.0*0.0 red + 5.0*16.0 blue + 10.0*2.0 green = 100.0
#10 Found : 20.0*0.0 red + 5.0*18.0 blue + 10.0*1.0 green = 100.0
#11 Found : 20.0*0.0 red + 5.0*20.0 blue + 10.0*0.0 green = 100.0
#12 Found : 20.0*1.0 red + 5.0*0.0 blue + 10.0*8.0 green = 100.0
#13 Found : 20.0*1.0 red + 5.0*2.0 blue + 10.0*7.0 green = 100.0
#14 Found : 20.0*1.0 red + 5.0*4.0 blue + 10.0*6.0 green = 100.0
#15 Found : 20.0*1.0 red + 5.0*6.0 blue + 10.0*5.0 green = 100.0
#16 Found : 20.0*1.0 red + 5.0*8.0 blue + 10.0*4.0 green = 100.0
#17 Found : 20.0*1.0 red + 5.0*10.0 blue + 10.0*3.0 green = 100.0
#18 Found : 20.0*1.0 red + 5.0*12.0 blue + 10.0*2.0 green = 100.0
#19 Found : 20.0*1.0 red + 5.0*14.0 blue + 10.0*1.0 green = 100.0
#20 Found : 20.0*1.0 red + 5.0*16.0 blue + 10.0*0.0 green = 100.0
#21 Found : 20.0*2.0 red + 5.0*0.0 blue + 10.0*6.0 green = 100.0
#22 Found : 20.0*2.0 red + 5.0*2.0 blue + 10.0*5.0 green = 100.0
#23 Found : 20.0*2.0 red + 5.0*4.0 blue + 10.0*4.0 green = 100.0
#24 Found : 20.0*2.0 red + 5.0*6.0 blue + 10.0*3.0 green = 100.0
#25 Found : 20.0*2.0 red + 5.0*8.0 blue + 10.0*2.0 green = 100.0
#26 Found : 20.0*2.0 red + 5.0*10.0 blue + 10.0*1.0 green = 100.0
#27 Found : 20.0*2.0 red + 5.0*12.0 blue + 10.0*0.0 green = 100.0
#28 Found : 20.0*3.0 red + 5.0*0.0 blue + 10.0*4.0 green = 100.0
#29 Found : 20.0*3.0 red + 5.0*2.0 blue + 10.0*3.0 green = 100.0
#30 Found : 20.0*3.0 red + 5.0*4.0 blue + 10.0*2.0 green = 100.0
#31 Found : 20.0*3.0 red + 5.0*6.0 blue + 10.0*1.0 green = 100.0
#32 Found : 20.0*3.0 red + 5.0*8.0 blue + 10.0*0.0 green = 100.0
#33 Found : 20.0*4.0 red + 5.0*0.0 blue + 10.0*2.0 green = 100.0
#34 Found : 20.0*4.0 red + 5.0*2.0 blue + 10.0*1.0 green = 100.0
#35 Found : 20.0*4.0 red + 5.0*4.0 blue + 10.0*0.0 green = 100.0
#36 Found : 20.0*5.0 red + 5.0*0.0 blue + 10.0*0.0 green = 100.0

如您所见,在各种可能性中,我得到了正确答案,但也得到了许多其他答案。现在假设我再添加一个红色(因此红色总数为 3),那么我现在有 49 个结果,但是如果考虑与第一个结果集的关系,则第二组中的某些结果不太可能出现。我假设当我获得更多数据结果时,我可以更准确地删除不起作用的结果。

我想知道是否有任何研究或标准方法可以将结果缩小到更有意义的范围。我不是 100% 确定,但我想也许谷歌可能是一个例子,因为每个查询不仅针对数据,而且还针对您的历史记录(我有一个排名很低的网站,当我点击它然后搜索时因为它再次出现在顶部..但是当我在我 friend 的计算机上搜索时,相同的网站显示在底部)。我想也许谷歌与我们的多个搜索查询建立关系的方式,我可以使用类似的方法从我上面的数据中删除不正确的结果。

抱歉造成误会。我对算法有点陌生,我无法解释这一点。如果它没有意义,请告诉我。

提前致谢!

最佳答案

如果我做对了,你可以像这样求解方程式

R*r + G*g + B*b = 100

对于给定的 R、G、B 整数值,并且限制 r、g、b 也是整数值。

因为你只有一个方程和 3 个变量,你得到一个解空间而不是一个解,现在想应用一些算法来选择正确或最好的一个

您似乎还有 r0、g0、b0 的值,它们可能是 r、g 和 b 的值?!

您需要想出的是一个适应度函数,它可以告诉您候选解决方案的好坏。

一个例子可能是(较低的值意味着更好的解决方案)

(r-r0)^2 +(g-g0)^2 +(b-b0)^2 

这基本上表示解决方案越接近可能的值越好。

一个变体可能是

(r-r0)^2 +(g-g0)^2 +(b-b0)^2 + c*C

其中 C 是您选择的常数,c 是与您可能的解决方案不同的值的数量。与改变两个或三个值的候选者相比,这将使只改变一个值的候选者具有更高的适应性。

有了适应度函数后,选择适应度最低的解决方案。

关于algorithm - 如何预测数据质量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6259731/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com