gpt4 book ai didi

machine-learning - 用于数据分类的机器学习算法。

转载 作者:行者123 更新时间:2023-11-30 08:28:30 24 4
gpt4 key购买 nike

我正在寻找一些关于我应该研究哪些技术/算法来解决以下问题的指导。我目前有一种算法,可以使用声学指纹对听起来相似的 mp3 进行聚类。在每个集群中,我都有每个文件的所有不同元数据(歌曲/艺术​​家/专辑)。对于该集群,我想选择与数据库中现有行匹配的“最佳”歌曲/艺术​​家/专辑元数据,或者如果没有最佳匹配,则决定插入新行。

对于一个集群来说,一般都有一些正确的元数据,但是单个文件有很多类型的问题:

  • 艺术家/歌曲的名称完全错误,或者只是轻微拼写错误
  • 艺术家/歌曲/专辑丢失,但其余信息仍然存在
  • 这首歌实际上是现场录音,但集群中只有部分文件有这样的标签。
  • 元数据可能非常少,在某些情况下只有文件名,可能是艺术家 - Song.mp3,或艺术家 - 专辑 - Song.mp3,或其他变体

一个简单的投票算法效果相当好,但我希望有一些可以在大量数据上进行训练的东西,这些数据可能会比我现在得到的数据更多的细微差别。任何论文或类似项目的链接将不胜感激。

谢谢!

最佳答案

如果我正确理解你的问题,你有一种现有的技术将歌曲等划分为集群,现在想要根据定义特征选择该集群内容的“最佳”示例。

我会看一下 Bayesian classifiers 。这些可以帮助推断数据中任何给定集群的关键定义特征(假设集群不是基于明确的、定义良好的分类法),并为元数据或其他参数中的噪声和错误提供一定的容忍度。然后,根据数据和集群的性质,您也许可以使用 maximum likelihood或抽样方法来确定给定簇中一个或多个最具代表性的示例。

贝叶斯方法也可用于推断丢失的数据,例如丢失的元数据值。样本分布可用于根据其他数据字段中的已知值生成缺失数据的可能值。

关于machine-learning - 用于数据分类的机器学习算法。,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2967584/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com