gpt4 book ai didi

machine-learning - 用于查找缺失属性的可扩展分类器

转载 作者:行者123 更新时间:2023-11-30 08:44:42 24 4
gpt4 key购买 nike

我有一个很大的稀疏矩阵,表示数百万个实体的属性。例如,代表一个实体的一条记录可能具有属性“has(fur)”、“has(tail)”、“makesSound(meow)”和“is(cat)”。

但是,这些数据并不完整。例如,另一个实体可能具有典型“is(cat)”实体的所有属性,但它可能缺少“is(cat)”属性。在本例中,我想确定该实体应该具有“is(cat)”属性的概率。

所以我试图解决的问题是确定每个实体应该包含哪些缺失的属性。给定任意记录,我想找到前 N 个最有可能缺失但应包含的属性。我不确定此类问题的正式名称是什么,因此我不确定在研究当前解决方案时要搜索什么。对于此类问题是否有可扩展的解决方案?

我的第一个方法是简单地计算每个缺失属性的条件概率(例如 P(is(cat)|has(fur) 和 has(tail) and ... )),但这似乎是一个非常慢的方法。另外,根据我对条件概率的传统计算的理解,我想我会遇到问题,其中我的实体包含一些与其他 is(cat) 实体不常见的不寻常属性,导致条件概率为零。

我的第二个想法是为每个属性训练一个最大熵分类器,然后根据实体当前的属性对其进行评估。我认为概率计算会更加灵活,但这仍然存在可扩展性问题,因为我必须为潜在的数百万个属性训练单独的分类器。此外,如果我想找到最有可能包含的前 N ​​个属性,我仍然需要评估所有分类器,这可能会花费很长时间。

有更好的解决方案吗?

最佳答案

这听起来像是一个典型的推荐问题。对于每个属性,使用单词“电影评级”,对于每一行,使用单词“人物”。对于每个人,您都希望找到他们可能喜欢但尚未评分的电影。

您应该看看一些更成功的方法 Netflix Challenge 。数据集非常大,因此效率是重中之重。论文 'Matrix Factorization Techniques for Recommender Systems' 可能是一个很好的起点。 .

关于machine-learning - 用于查找缺失属性的可扩展分类器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3213651/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com