gpt4 book ai didi

machine-learning - 两个具有不同分布的数据集的含义以及为什么神经网络不能一起处理它们?

转载 作者:行者123 更新时间:2023-11-30 09:59:11 24 4
gpt4 key购买 nike

我正在使用具有输入特征(继承树的深度、子项数量、方法数量)的不同项目数据集,其中这些特征在每个不同项目中的每个类都有值。
我读过很多论文,说神经网络或任何其他模型不能在不同分布的数据集上工作

我的问题是:
1. 不同分布的数据集的含义是什么(单个数据集有多个样本,每个样本对应该项目中的一个类)
2. 为什么神经网络或任何算法不能在2个不同分布的数据集上工作

提前致谢。

最佳答案

制定统计学习问题时最常用的假设之一是样本是独立同分布的,这意味着样本是同分布的,因此所有样本都应该来自相同的分布。当你说你有两个不同的数据集时,这意味着这个假设不正确,并且大多数理论保证不再成立。现在,也许你的问题是“数据分布”是什么意思,这只是联合律 p(x, y),其中 x 是特征,y 是标签。因此两个数据集具有不同的分布意味着 p_{1}(x, y) != p_{2}(x, y)

关于machine-learning - 两个具有不同分布的数据集的含义以及为什么神经网络不能一起处理它们?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59704758/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com