gpt4 book ai didi

machine-learning - 缺乏文本特征矢量化的想法(音乐流派)

转载 作者:行者123 更新时间:2023-11-30 09:31:07 25 4
gpt4 key购买 nike

我正在创建轨道受欢迎程度的预测模型。我的特点之一是音乐流派。该变量包含许多独特但相似的值,例如:“当代乡村”、“乡村流行”、“陷阱”、“低保真陷阱”。 我正在寻找一种以数字方式表示该列的方法

我想根据属于特定流派的轨道的音频特征为我的音乐流派变量创建一维嵌入。这实际上可能吗?

如果您能就该问题提供任何帮助,我将不胜感激。

最佳答案

将流派视为标记并训练每个流派的向量应该是可能的。

对于训练,您需要同时使用不同流派的“文本” - 这些可能是用户分配给单个轨道的多个流派,或者某个用户的收听历史记录中的流派序列,或者某个艺术家的作品中的流派序列等。

而且,我怀疑这种方法可以很好地发挥作用,成功地将类型放入一个坐标空间中,其中它们之间的相对距离/方向类似于人类的判断。然后,这些“密集嵌入”可以用作其他下游机器学习技术的输入。

一些可能有帮助的想法:

  • 为了获得良好的密集嵌入,您需要空间维度远小于唯一标记的数量。也就是说,连续维度的数量比“one-hot”编码要小得多。因此,您可能不想想要将相关流派折叠起来(例如将低保真陷阱折叠为陷阱) - 这会丢弃潜在有用的内容数据中的微妙之处,即使它们很嘈杂,当 *2vec 训练的目的是能够学习/数字建模这些微妙之处(只要有足够的上下文使用示例)。

  • 当对非真正自然语言的数据进行训练时,并且出于特定的预测目的,一旦您拥有可重复的方法来对不同模型进行评分,远离通常默认值的训练参数就更有可能是最佳的为了您的目的。 (例如,负采样中使用的指数参数在大多数 word2vec 实现中固定为 0.75 - 但 recent paper 表明非常不同的值在推荐应用程序中可能会明显更好。因此,它已在最新版本的 Python gensim 库中变得可指定。)

关于machine-learning - 缺乏文本特征矢量化的想法(音乐流派),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57588825/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com