gpt4 book ai didi

audio - 组500,000个音频文件(多次重复)的最佳方法?

转载 作者:行者123 更新时间:2023-12-03 01:20:13 27 4
gpt4 key购买 nike

我有一个500,000个用户上传的音频文件的数据库,其中包括:

  • 歌曲
  • 电影中的音频片段
  • 在线
  • 中的随机音频文件
  • 用户录制的音频片段(例如,使用麦克风)

  • 音频文件的标题虽然不一致,有时还是不正确。

    有许多重复项,但略有差异:标题差异,音频差异(长度,压缩,音高等)。我想将每个音频文件归类到与其对应的类别。 “它是什么”是指基于音频的那个音频文件的最相关的标题(不是标题)。

    例如,“迈克尔· jackson -惊悚片”可能有30种不同的音频文件,它们的长度,压缩级别,标题不同,等等。这些都应归为一类,并带有适当格式的歌曲标题。

    某些音频文件将无法以编程方式正确地命名。例如,此视频 https://www.youtube.com/watch?v=ee925OTFBCA中的音频在数据库中将有很多实例,但是我认为那里没有能够对其进行标题的API。在这种情况下,只要仍可以将它们作为相似的发音进行匹配并放在一组中,则可以从剪辑已具有的标题中选择一个标题。我想我可以通过找出与所有这些人“最相似”的标题(例如,最高的平均Sørensen-Dice系数)来做到这一点。

    也有一部分用户录制的剪辑无法通过编程方式进行标题/分组,因为它们仅存在于该数据库中。

    例如,贝多芬《第六交响曲》可能有许多不同的名称,例如:
  • 6号交响曲(贝多芬)
  • 贝多芬第六交响曲
  • 贝多芬6
  • Beathoven第六重音(故意拼写错误)

  • 为了对这些文件进行分类,我计划为每个文件执行以下操作:
  • 使用音频识别API尝试识别它,如果可以识别,请将其放在
  • 类别中
  • 如果无法识别,请在数据库中检查与
  • 非常相似的音频片段
  • 如果音频数据库中存在匹配项,则将该音频剪辑链接到该匹配项,以便将其放置在与匹配的音频剪辑相同的类别中(如果匹配的剪辑尚无类别,则将在该类别时显示)给一个)
  • 如果没有匹配项,则将文件放置在其自己的类别下,并带有其先前的标题

  • 这样做的目的是使数据库更小,分类更好,以便使用更少的存储空间,并使最终用户更容易搜索和导航。

    现在,搜索一些音频剪辑会发现数百个相同的文件,但略有不同。这是我们要解决的主要问题。

    我有三个问题:
  • 哪种音频识别API最适合识别音频文件?尤其要考虑到正在识别的片段类型以及
  • 的定价
  • 应该使用哪个API比较音频文件以找出相似之处?需要将这些数据库与数据库的大小进行比较
  • 我的方法是否存在某种缺陷?如果是这样,您将如何处理此任务?
  • 最佳答案

    获得整个音频文件的简洁描述通常称为“音频指纹”。

    有很多解决方案。 MusicBrainz.org文档具有good overview,包括商业产品和开源项目。他们自己的最新方法(也可以作为开源使用)是AcousticId

    关于audio - 组500,000个音频文件(多次重复)的最佳方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61388069/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com