gpt4 book ai didi

dataset - 训练数据集应该如何分布?

转载 作者:行者123 更新时间:2023-12-05 04:28:24 26 4
gpt4 key购买 nike

如果这是一个初学者问题,我们深表歉意。我正在构建一个文本转语音模型。我想知道我的训练数据集是否应该“真实地”分布(即与将要使用的数据分布相同),或者应该均匀分布以确保它在所有类型的句子上都表现良好。谢谢。

最佳答案

我会说这取决于数据集的大小。如果你有一个非常非常小的数据集,这在某些领域很常见而在其他领域很少见,那么你会想要确保所有“重要类型的数据”(无论这对你的任务意味着什么)甚至都可以在那里表示如果它们相对罕见,但如果您有足够大的数据集,所有关键场景无论如何都会得到充分代表,那么现实的分布会更好。

此外,如果某些数据项上的错误比其他数据项更重要(这在某些领域中很可能),那么过度代表它们可能是有意义的,因为您没有针对实际分布的平均情况进行优化。

还有目标注释的情况,您可以在其中查看模型所犯的错误,并专门注释额外的数据以过度代表这些情况 - 因为在某些情况下,某些类型的数据恰好非常常见且解决起来微不足道,因此为他们添加额外的训练数据需要付出努力,但不会以任何方式改变结果。

关于dataset - 训练数据集应该如何分布?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/72614571/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com