- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在创建轨道受欢迎程度的预测模型。我的特点之一是音乐流派。该变量包含许多独特但相似的值,例如:“当代乡村”、“乡村流行”、“陷阱”、“低保真陷阱”。 我正在寻找一种以数字方式表示该列的方法。
我想根据属于特定流派的轨道的音频特征为我的音乐流派变量创建一维嵌入。这实际上可能吗?
如果您能就该问题提供任何帮助,我将不胜感激。
最佳答案
将流派视为标记并训练每个流派的向量应该是可能的。
对于训练,您需要同时使用不同流派的“文本” - 这些可能是用户分配给单个轨道的多个流派,或者某个用户的收听历史记录中的流派序列,或者某个艺术家的作品中的流派序列等。
而且,我怀疑这种方法可以很好地发挥作用,成功地将类型放入一个坐标空间中,其中它们之间的相对距离/方向类似于人类的判断。然后,这些“密集嵌入”可以用作其他下游机器学习技术的输入。
一些可能有帮助的想法:
为了获得良好的密集嵌入,您需要空间维度远小于唯一标记的数量。也就是说,连续维度的数量比“one-hot”编码要小得多。因此,您可能不想想要将相关流派折叠起来(例如将低保真陷阱
折叠为陷阱
) - 这会丢弃潜在有用的内容数据中的微妙之处,即使它们很嘈杂,当 *2vec 训练的目的是能够学习/数字建模这些微妙之处(只要有足够的上下文使用示例)。
当对非真正自然语言的数据进行训练时,并且出于特定的预测目的,一旦您拥有可重复的方法来对不同模型进行评分,远离通常默认值的训练参数就更有可能是最佳的为了您的目的。 (例如,负采样中使用的指数参数在大多数 word2vec 实现中固定为 0.75
- 但 recent paper 表明非常不同的值在推荐应用程序中可能会明显更好。因此,它已在最新版本的 Python gensim
库中变得可指定。)
关于machine-learning - 缺乏文本特征矢量化的想法(音乐流派),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57588825/
我不明白为什么我的 Java 代码没有出现错误。我有一个使用泛型类型的类: import java.util.*; // For ArrayList public class Hat { pub
我正在 Pygame 中开发一款射击类游戏供我自己娱乐,在创建玩家的基本 Action 的过程中我遇到了一些疑问,“Dash”和“Switch”均未按预期工作。 ... def switch(self
当我加载一个显示的网页时,为什么我要为每个图像的 HTTP 请求打开一个新的 TCP 连接?为什么在页面加载期间不重复使用单个 TCP 连接? 最佳答案 我认为浏览器通常会打开多个连接,以便它可以并行
我一直在谷歌搜索,只能找到 a trivial example Compute Capability 3.0 中的新动态并行性在其链接的其中一份技术简报中介绍 from here .我知道 HPC 专
我使用 Telerik 和 Microsoft CDN,分别用于它们各自的 AJAX 工具包。两者在 99% 的情况下都工作得很好。然而,我最近在两家不同的咖啡馆工作并访问了我的网站:第一家咖啡馆不允
我在一家从事网络托管的 IT 公司工作,而且我个人对 SQL 非常缺乏经验*。 *看起来很糟糕 我的一个客户正在尝试将 Epos 系统与其 magento 网站集成,在 Epos 集成过程中,他们遇到
我的代码现在有一个循环,它调用蒙特卡洛函数来计算多个样本的简单积分(y=x,从 0 到 1),并将总时间和积分值写入文本文件。然后循环增加线程数并继续前进。现在大约有 8 个线程,时间峰值约为 2.6
所以 HTTP/2 增加了我想要利用的性能。出于各种原因,我不喜欢连接我的 javascript,而 HTTP/2 无论如何都会使它变得不必要。 但是。我正在开发一个将部署在客户本地网络中的网络应用程
我写了一个非常简单的 Haskell 程序: main = print $ sum $ map read ["55", "99", "101"] 鉴于我过去的经验,我预计会得到一个“歧义类型”错误,因
我是一名优秀的程序员,十分优秀!