speech-synthesis - 为什么我无法使用 slider 值控制 Apple macOS Speech Synthesis 音频单元？-6ren

speech-synthesis - 为什么我无法使用 slider 值控制 Apple macOS Speech Synthesis 音频单元？

转载作者：行者123 更新时间：2023-12-04 08:29:39

26

4

我正在努力将 Apple 语音合成音频单元的东西(仅适用于 macOS，不适用于 iOS)合并到 AudioKit 中，并且我已经构建了一个 AKSpeechSynthesizer Class (最初由 wangchou 在此 pull request 中创建)和一个 demo project两者都在 AudioKit 的开发分支上可用。

我的项目与此非常相似 Cocoa Speech Synthesis Example但是在这个项目中，速率变量可以在每分钟低字数 (40) 到高字数 (300 ish) 之间平滑地改变和变化。但是，我的项目以默认速率 175 开始，任何更改都会将速率减慢到爬行 - 除非您将其更改为 350，否则它会变得非常快。

我看不出我在做什么与这个例子不同，因为这两个项目都依赖

SetSpeechProperty(speechChannel, kSpeechRateProperty, newRate as NSNumber?)

设置费率。

这是 my implementation和 working one .

最大的区别是我的合成器设置为音频单元，而我认为工作示例仅使用默认输出到扬声器。

频率(音高)或调制(pitchMod)的其他参数也表现出奇怪的行为，但在这些参数上不太明显，并且在两个项目中都有些有趣。

有人可以告诉我为什么我的不起作用或通过拉取请求修复它吗？任何帮助将不胜感激并在代码中归因。

谢谢!

最佳答案

似乎速率、音调和调制语音属性需要是整数值，没有小数部分，才能正常工作。

CocoaSpeechSynthesis 示例实际上表现出相同的行为，但将 rate 字段初始化为整数值。例如，要重现该问题，请尝试先将速率设置为 333，然后再设置为 333.3。

其他音高和调制参数似乎对小数部分同样挑剔，并且似乎也只有在设置为整数值时才能产生合理的结果。

不幸的是，我找不到任何在线引用文档 Material 来证实这些发现，但这里有一个补丁可以让 3 个语音参数在 SpeechSynthesizer 示例项目中起作用:

diff --git a/AudioKit/Common/Nodes/Generators/Speech Synthesizer/AKSpeechSynthesizer.swift b/AudioKit/Common/Nodes/Generators/Speech Synthesizer/AKSpeechSynthesizer.swift
index 81286b8fb..324966e13 100644
--- a/AudioKit/Common/Nodes/Generators/Speech Synthesizer/AKSpeechSynthesizer.swift 
+++ b/AudioKit/Common/Nodes/Generators/Speech Synthesizer/AKSpeechSynthesizer.swift 
@@ -47,7 +47,7 @@ open class AKSpeechSynthesizer: AKNode {
                return
            }
            AKLog("Trying to set new rate")
-            let _ = SetSpeechProperty(speechChannel, kSpeechRateProperty, newRate as NSNumber?)
+            let _ = SetSpeechProperty(speechChannel, kSpeechRateProperty, newRate.rounded() as NSNumber?)
        }
    }

@@ -70,7 +70,7 @@ open class AKSpeechSynthesizer: AKNode {
                return
            }
            AKLog("Trying to set new freq")
-            let _ = SetSpeechProperty(speechChannel, kSpeechPitchBaseProperty, newFrequency as NSNumber?)
+            let _ = SetSpeechProperty(speechChannel, kSpeechPitchBaseProperty, newFrequency.rounded() as NSNumber?)
        }
    }

@@ -93,7 +93,7 @@ open class AKSpeechSynthesizer: AKNode {
                return
            }
            AKLog("Trying to set new modulation")
-            let _ = SetSpeechProperty(speechChannel, kSpeechPitchModProperty, newModulation as NSNumber?)
+            let _ = SetSpeechProperty(speechChannel, kSpeechPitchModProperty, newModulation.rounded() as NSNumber?)
        }
    }

这只是对 Swift 的数字舍入方法的 3 次额外调用。

关于speech-synthesis - 为什么我无法使用 slider 值控制 Apple macOS Speech Synthesis 音频单元？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49716391/

26

4

0

文章推荐： .net - 单击菜单项时验证 DataGridView

文章推荐： SwiftUI:旋转后文本没有整个屏幕宽度

javascript - Web 音频/ radio 流客户端 : use Howler. js、 native 音频、其他库？
我一直在为实时流和静态文件(HTTP 上的 MP3)构建网络广播播放器。我选了Howler.js作为规范化 quirks 的后端的 HTML5 Audio (思考:自动播放、淡入/淡出、进度事件)。
vue实现移动端input上传视频、音频
vue移动端input上传视频、音频，供大家参考，具体内容如下 html部分 ?
PHP转换图像+音频=视频
关闭。这个问题需要更多 focused .它目前不接受答案。想改进这个问题？更新问题，使其仅关注一个问题 editing this post . 7年前关闭。 Improve this questi
iphone - 音频/视频编程
我想在我的程序中访问音频和视频。 MAC里面可以吗？我们的程序在 Windows 上运行，我使用 directshow 进行音频/视频编程。但我想在 MAC 中开发相同的东西。有没有像direct
iOS 音频/声音不会在后台模式处于事件状态时在后台播放
我的应用程序(使用 Flutter 制作，但这应该无关紧要)具有类似于计时器的功能，可以定期(10 秒到 3 分钟)发出滴答声。我在我的 Info.plist 中激活了背景模式 Audio、AirPl
javascript - 音频 JavaScript
我是 ionic 2 的初学者我使用了音频文件。 import { Component } from '@angular/core'; import {NavController, Alert
java - 插入声音/音频
我有一个包含ListView和图片的数据库，我想在每个语音数据中包含它们。我已经尝试过，但是有很多错误。以下是我的java和xml。数据库.java package com.example.data
php - 音频/音乐社交网站托管服务
我在zend framework 2上建立了一个音乐社交网络。您可以想象它与SoundCloud相同，用户上传歌曲，其他用户播放它们，这些是网站上的基本操作。我知道将要托管该页面的服务器将需要大量带
android - 音频-Android
我正在尝试在android应用中播放音频，但是在代码中AssetFileDescriptor asset1及其下一行存在错误。这是代码: MediaPlayer mp; @Override prote
wordpress - [音频] WordPress短代码中的网址错误
我对 WordPress Audio Shortcode有问题。我这样使用它: 但是在前面，在HTML代码中我得到了: document.createElement('audio');
matlab - 音频.wav文件的SNR和评估过滤技术的客观措施
我正在做一项关于降低噪音的滤波技术的实验。我在数据集中的样本是音频文件(.wav)，因此，我有:原始录制的音频文件，我将它们与噪声混合，因此变得混合(噪声信号)，我将这些噪声信号通过滤波算法传递，输出
audio - 音频/声音增强的神经网络
一个人会使用哪种类型的神经网络架构将声音映射到其他声音？神经网络擅长学习从序列到其他序列，因此声音增强/生成似乎是它们的一种非常流行的应用(但不幸的是，事实并非如此-我只能找到一个(相当古老的)洋红色
windows - 音频:如何设置默认麦克风的电平？
这个让我抓狂: 在专用于此声音播放/录制应用程序的 Vista+ 计算机上，我需要我的应用程序确保(默认)麦克风电平被推到最大。我该怎么做？我找到了 Core Audio lib ，找到了如何将 I
html - Chrome扩展程序和流式传输<音频>
{ "manifest_version": 2, "name": "Kitten Radio Extension", "description": "Listen while browsi
c# - 音频，FFT不起作用
class Main { WaveFileReader reader; short[] sample; Complex[] tmpComplexArray; publi
android - 音频，平衡2种来源的声音
我正在使用电话录音软件(android)，该软件可以记录2个人在电话中的通话。每个电话的输出是一个音频文件，其中包含来自 call 者和被 call 者的声音。但是，大多数情况下，运行此软件的电话发
javascript - 音频/语音比较和getUserMedia
我正在构建一个需要语音激活命令的Web应用程序。我正在使用getUserMedia作为音频输入。对于语音激活命令，该过程是用户将需要通过记录其语音来“校准”命令。例如，对于“停止”命令，用户将说出“
cordova - 在PouchDB中存储视频/音频
我正在开发一个Cordova应用程序，并将PouchDB用作数据库，当连接可用时，它将所有信息复制到CouchDB。我成功存储了简单的文本和图像。我一直在尝试存储视频和音频，但是没有运气。我存储
audio - 音频.MP3在Safari浏览器中不起作用
我正在开发web application，我必须在其中使用.MP3的地方使用播放声音，但是会发生问题。声音为play good in chrome, Firefox，但为safari its not
audio - 音频:软件中的位深度减少
如何减少音频文件的位深？是否忽略了MSB或LSB？两者混合吗？ (旁问:这叫什么？) 最佳答案 TL / DR:将音频曲线高度变量右移至较低位深度可以将音频视为幅度(Y轴)随时间(X轴)的模拟曲线。

首页

博学

6Ren·AI

商城

speech-synthesis - 为什么我无法使用 slider 值控制 Apple macOS Speech Synthesis 音频单元？