gpt4 book ai didi

完成损坏的数据矩阵的算法

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:41:20 25 4
gpt4 key购买 nike

我有以下问题:

我提取了一组数据,但其中部分数据不可用或丢失;对于不同的项目,我确定了 10 个参数:

       param1   param2    ...  param10
Item 1 1220 N/A 1000
Item 2 1300 200 ... 1000
.. ... ...

item N N/A 1000 ... 200

N ~ 1500 and half of the values are complete

在项目的创建中有一个隐含的逻辑,所以我想用尽可能最好的期望值来填充这些值。

示例:

假设您有 2 个参数和 3 个项目。

       param1  param2
item1 400 200
item2 200 100
item3 100 N/A

通过线性插值,您可以轻松获得 item3 = 50 的 param2。

我的想法:

因为我有 10 个参数和 1500 个值,所以我想做一个 PCAcovariance matrix 上完成的750项(找到数据集的主要方向)。

PCA 会为我的项目引导一个主要方向(最大特征值),为项目的子组引导一个子方向(较小的特征值)。

例如,我想在主方向上投影缺少参数的矢量。得到缺失参数的近似值。

来 self 的第一个例子:

       param1  param2
item1 400 200
item2 200 100
item3 100 X ?

完整矩阵:

param1  param2
item1 400 200
item2 200 100

协方差矩阵:

   1    0.5
0.5 1

特征向量和特征值:

V1 和 l1:

1
1 associatedd to 1.5

V2 和 l2:

1
-1 associated to 0.5

结果:

如果我只在 V1 上投影,我会得到 X1=100

如果我在 l1.V1 + l2.V2 上投影,我得到 X1=50。这是因为前 2 项之间存在完美的相关性。


所以我的问题:

到目前为止这只是理论,我还没有应用它,但在我开始之前我想知道我是否会用它去某个地方。

我可以做得更好吗? (我真的相信是的。)如果所有项目都缺少一个参数,我该怎么办?我从哪里获得方向?

是否有已知的好的算法来填充损坏的矩阵,或者您能帮助我完成我的想法(向我推荐好的阅读 Material 或方法)吗?

我认为 Netflix 使用这种算法来自动填充电影得分矩阵,例如(Netflix 100 万美元问题)。

如果您认为这属于另一个 stackexchange 站点,请随时迁移它。

最佳答案

This article Simon Funk 描述了他使用与您类似的方法来应对 Netflix 奖品挑战;也许这就是您提到它时所想到的。与您的方法不同,它处理丢失的数据。实质是用更自然地解释缺失数据的大致等效的优化问题来代替直接使用矩阵方法来确定数据矩阵的奇异值分解。

关于完成损坏的数据矩阵的算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6826995/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com