使用 Keras 进行音频分类 : presence of human voice-6ren

使用 Keras 进行音频分类 : presence of human voice

转载作者：行者123 更新时间：2023-11-30 08:26:52

26

4

我想使用 Keras 创建一个音频分类系统，它可以简单地确定给定样本是否包含人声。没有其他的。这将是我的第一次机器学习尝试。

此音频预处理器存在。它声称没有完成，但它已经被 fork 了几次:

https://github.com/drscotthawley/audio-classifier-keras-cnn

我不明白这个是如何工作的，但我准备尝试一下:

https://github.com/keunwoochoi/kapre

但是假设我有其中一个可以工作，其余过程是否与图像分类类似？基本上，我从来没有完全理解什么时候使用Softmax，什么时候使用ReLu。一旦我将数据映射为张量，这对于声音和图像是否会类似？

最佳答案

声音可以被视为一维图像并可以通过一维卷积进行处理。通常，扩张卷积可能会起到很好的作用，请参阅 Wave Nets

声音也可以被视为序列并与 RNN 层一起使用(但也许它们的数据量太大了)

对于您的情况，您只需要一个输出，最后带有 'sigmoid' 激活和 'binary_crossentropy' 损失。

结果 = 0 -> 没有声音
结果 = 1 -> 有声音

何时使用“softmax”？

softmax 函数适用于多类问题(不是您的情况)，您只需要一个类作为结果。 softmax 函数的所有结果总和将为 1。它的目的就像每个类别的概率。

它主要用在最后一层，因为你只能得到类作为最终结果。

这对于只有一个类是正确的的情况很有用。在这种情况下，它与分类交叉熵损失相得益彰。

模型中间的 Relu 和其他激活

这些不是很规则。有很多可能性。我经常在图像卷积模型中看到relu。

需要了解的重要事项是它们的“范围”。他们的输出有什么限制？

Sigmoid:从 0 到 1——在模型末尾，这将是存在/缺席分类的最佳选择。对于想要将许多可能的类放在一起的模型也很有用。
Tanh:从 -1 到 1
Relu:从 0 到无限(它只是削减负值)
Softmax:从 0 到 1，但确保所有值的总和为 1。适合在多个类中只需要 1 个类的模型的末尾。

关于使用 Keras 进行音频分类 : presence of human voice，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46354281/

26

4

0

文章推荐： javascript - 通过 JavaScript classList 为 div 添加样式

文章推荐： machine-learning - 带有负奖励的 RL 激活函数

humanizer - 是否可以使用 Humanizer 将 TimeSpan 人性化为数年？
我们想利用 Humanizer package (因为我们在其他地方使用它)并且不想添加更多类似的库或手工代码。我有一些时间跨度，其中一些是数千天。我想将它们人性化并将它们转换为年份。现在我很欣赏一
java - Human 不是抽象的，不会覆盖抽象方法 compareTo(Human) .solution？
public class Human implements Comparable { private int age; private String name; public
c# - 没有给出与 'id' 所需的形参 'Human.Human(int, string, string, string)' 相对应的参数
我无法从 Homecontrollers 操作方法调用新的 Human 对象。 var employee = new Human { id = 1, name = "home inde
c# - Humanizer 法语标题大小写支持
内置的 .Net 方法 TextInfo.ToTitleCase 可以很好地处理法语句子，但有些示例会导致问题，请参阅 remarks (复制如下): Generally, title casing
python - 牌组洗牌算法还不够 "human"
为了好玩，我制作了这个牌组洗牌功能来模仿人们如何不完美地洗牌。他们将其切成近两半，并使用“褶边”方法将左右甲板交织在一起，然后重复此过程任意多次。甲板永远不会完美地编织在一起。您可以将它们打乱，如 L
php - 检查名称是否为 "human"？
我有一款在线角色扮演游戏，我很认真地对待它。最近我遇到了用户使用假名制作假字符的问题，只是一堆不同的字母。就像 Ghytjrhfsdjfnsdms、Yiiiedawdmnwe、Hhhhhhhhhhej
human-computer-interface - 简易眼动追踪算法
我正在寻找一种算法，该算法可以告诉我照片/网络摄像头实时Feed上的眼睛在哪里。我已经进行了很多搜索，但是现在我不想从很多复杂性入手。只是为了好玩而已。我的想法是要采用某种方法来接收图像并返回与用
django - "Are you a human"django 中的页面类型
为了防止对我的 django 站点的 DOS 类型的攻击，我正在考虑显示一个验证码页面，如果我的网络应用程序经常受到某个 IP 的攻击。类似于当你表现出过多的事件时 SO 正在做的事情。在 Djan
Perl Number::Bytes::Human
我正在使用此代码将字节转换为更易读的格式，例如155K, 1.5M, 1.5G，但是从CPAN上的解释看不出转换后的值如何打印到小数点后第二位并四舍五入。谢谢。 use strict; use war
javascript - Humanizer.Js 错误
我最近尝试过Humanizer.Js 。我从 here 添加了相同的 nuget 引用，并将其添加到我的页面中，名称为。但是在我的页面加载中我收到错误:“未捕获类型错误:无法读取未定义的属性‘原型
python - Humanize 不适用于模板中的 float
我正在开发一个 Django 应用程序，它有 LANGUAGE_CODE设置为es西类牙语。我正在尝试格式化数字在模板中的呈现方式。现在它们呈现为: S/ 18,00当S/ 18.00需要。我搜索
java - toString() : for debugging or for humans?
class Address { private enum Component { NUMBER, STREET, STATE, COUNTRY } pr
c# - Humanizer 无法在 C# 中对意大利语单词进行单数化或复数化
我已经成功地使用 Humanizer 将英语单词单数化/复数化，但当我将 CultureInfo 设置为意大利语时，它只会向单词添加一个额外的“s”。例如: "Man".Pluralize() =
shell - 在字节数和 "human-readable"字符串之间转换
是否有一个 shell 命令可以简单地在以字节为单位的数字字符串和某些命令通过 -h 提供的“人类可读”的数字字符串之间来回转换选项？澄清问题:ls -l没有 -h选项(某些输出被抑制) > ls
antlr - "Human-readable"ANTLR 生成的代码？
我已经学习ANTLR几天了。我学习它的目标是我将能够生成解析器和词法分析器，然后亲自将它们从 Java 手动翻译成我的目标语言(C/C++/Java/C#/Python，没有工具支持它)。我选择 AN
python - 使用 Python Humanize 自定义文件大小格式？
我正在使用 Python Humanize module 来格式化一些文件大小信息。该模块默认保留一位小数，有没有办法返回具有不同小数位的值？这是默认值: >>> humanize.naturals
python - 如何在模型中使用 django.contrib. humanize
我想在模板之外使用django.contrib. humanize，实际上是在模型内部使用来人性化一些短信中的某些日期。这可能吗？我怎样才能做到这一点？最佳答案您可以导入模型中的函数: from
django - Django中字段选择的 “human-readable”值
PAYCODE_BLUEPAY = "BLUEPAY" PAYCODE_HEARTLAND = "HEARTLAND" PAYCODE_1STPAY = "1STPAYMENT" PAYCODE_CH
mysql - SQL - 按 "human"相关性排名或排序
希望实现按功能排名/排序，按照我们人类认为相关的方式对产品进行排名，而不是计算机认为相关的方式。目前我有这个sql语句 select MATCH(productName) AGAINST('xyz'
c# - 我在哪里可以找到一些 "humanized"C# 教程？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。想改进这个问题？将问题更新为 on-topic对于堆栈溢出。 7年前关闭。 Improve this qu

首页

博学

6Ren·AI

商城

使用 Keras 进行音频分类 : presence of human voice