- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试创建一个同时利用 STT(语音到文本)和 TTS(文本到语音)的应用程序。但是,我遇到了一些模糊的问题,非常感谢您的专业知识。
该应用程序包含一个位于屏幕中央的按钮,单击该按钮可使用以下代码启动所需的语音识别功能。
// MARK: - Constant Properties
let audioEngine = AVAudioEngine()
// MARK: - Optional Properties
var recognitionRequest: SFSpeechAudioBufferRecognitionRequest?
var recognitionTask: SFSpeechRecognitionTask?
var speechRecognizer: SFSpeechRecognizer?
// MARK: - Functions
internal func startSpeechRecognition() {
// Instantiate the recognitionRequest property.
self.recognitionRequest = SFSpeechAudioBufferRecognitionRequest()
// Set up the audio session.
let audioSession = AVAudioSession.sharedInstance()
do {
try audioSession.setCategory(.record, mode: .measurement, options: [.defaultToSpeaker, .duckOthers])
try audioSession.setActive(true, options: .notifyOthersOnDeactivation)
} catch {
print("An error has occurred while setting the AVAudioSession.")
}
// Set up the audio input tap.
let inputNode = self.audioEngine.inputNode
let inputNodeFormat = inputNode.outputFormat(forBus: 0)
self.audioEngine.inputNode.installTap(onBus: 0, bufferSize: 512, format: inputNodeFormat, block: { [unowned self] buffer, time in
self.recognitionRequest?.append(buffer)
})
// Start the recognition task.
guard
let speechRecognizer = self.speechRecognizer,
let recognitionRequest = self.recognitionRequest else {
fatalError("One or more properties could not be instantiated.")
}
self.recognitionTask = speechRecognizer.recognitionTask(with: recognitionRequest, resultHandler: { [unowned self] result, error in
if error != nil {
// Stop the audio engine and recognition task.
self.stopSpeechRecognition()
} else if let result = result {
let bestTranscriptionString = result.bestTranscription.formattedString
self.command = bestTranscriptionString
print(bestTranscriptionString)
}
})
// Start the audioEngine.
do {
try self.audioEngine.start()
} catch {
print("Could not start the audioEngine property.")
}
}
internal func stopSpeechRecognition() {
// Stop the audio engine.
self.audioEngine.stop()
self.audioEngine.inputNode.removeTap(onBus: 0)
// End and deallocate the recognition request.
self.recognitionRequest?.endAudio()
self.recognitionRequest = nil
// Cancel and deallocate the recognition task.
self.recognitionTask?.cancel()
self.recognitionTask = nil
}
当单独使用时,这段代码就像一个魅力。但是,当我想使用 AVSpeechSynthesizer
对象读取转录的文本时,似乎没有什么是清楚的。
看了多个Stack Overflow帖子的建议,建议修改
audioSession.setCategory(.record, mode: .measurement, options: [.defaultToSpeaker, .duckOthers])
以下内容
audioSession.setCategory(.playAndRecord, mode: .default, options: [.defaultToSpeaker, .duckOthers])
还是徒劳。在分别运行 STT 和 TTS 后,应用程序仍然崩溃。
我的解决方案是使用这个而不是前面提到的
audioSession.setCategory(.multiRoute, mode: .default, options: [.defaultToSpeaker, .duckOthers])
这让我完全不知所措,因为我真的不知道发生了什么错综复杂的事情。如果有任何相关解释,我将不胜感激!
最佳答案
我也在用 SFSpeechRecognizer 和 AVSpeechSythesizer 开发一个应用程序,对我来说 .setCategory(.playAndRecord, mode: .default)
工作正常,它是我们需要的最佳类别,according to Apple .甚至,我能够在音频引擎运行时 .speak()
SFSpeechRecognitionTask 的每个转录,没有任何问题。我的意见是你的程序逻辑中的某个地方导致了崩溃。如果您可以用相应的错误更新您的问题,那就太好了。
关于为什么 .multiRoute
类别有效:我猜 AVAudioInputNode
有问题。如果您在控制台中看到这样的错误
Terminating app due to uncaught exception 'com.apple.coreaudio.avfaudio', reason: 'required condition is false: IsFormatSampleRateAndChannelCountValid(hwFormat)
或者像这样
Terminating app due to uncaught exception 'com.apple.coreaudio.avfaudio', reason: 'required condition is false: nullptr == Tap()
您只需要对代码的某些部分重新排序,例如将 Audio Session 的设置移动到只被调用一次的地方,或者确保输入节点的抽头总是在安装新的之前删除,即使识别任务是否成功完成。也许(我从未使用过它).multiRoute
能够通过 its nature 处理不同的音频流和路由来重用相同的输入节点。
在 Apple 的 WWDC session 之后,我在我的程序中使用的逻辑如下:
override func viewDidLoad() { //or init() or when necessarily
super.viewDidLoad()
try? AVAudioSession.sharedInstance().setCategory(.playAndRecord, mode: .default)
}
func shouldProcessSpeechRecognition() {
guard AVAudioSession.sharedInstance().recordPermission == .granted,
speechRecognizerAuthorizationStatus == .authorized,
let speechRecognizer = speechRecognizer, speechRecognizer.isAvailable else { return }
//Continue only if we have authorization and recognizer is available
startSpeechRecognition()
}
func startSpeechRecognition() {
let format = audioEngine.inputNode.outputFormat(forBus: 0)
audioEngine.inputNode.installTap(onBus: 0, bufferSize: 1024, format: format) { [unowned self] (buffer, _) in
self.recognitionRequest.append(buffer)
}
audioEngine.prepare()
do {
try audioEngine.start()
recognitionTask = speechRecognizer!.recognitionTask(with: recognitionRequest, resultHandler: {...}
} catch {...}
}
func endSpeechRecognition() {
recognitionTask?.finish()
stopAudioEngine()
}
func cancelSpeechRecognition() {
recognitionTask?.cancel()
stopAudioEngine()
}
func stopAudioEngine() {
audioEngine.stop()
audioEngine.inputNode.removeTap(onBus: 0)
recognitionRequest.endAudio()
}
有了它,我可以在我的代码中的任何地方调用一个 AVSpeechSynthesizer
实例并说出一段话。
关于ios - 同时使用 SFSpeechRecognizer 和 AVSpeechSythesizer 时如何正确设置 AVAudioSession 和 AVAudioEngine,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53147291/
我正在 XCode 6 中测试我的应用程序,并发现 iOS8 中的 AVAudioSession 存在问题。 当我打电话时 [[AVAudioSession sharedInstance] setAc
在我的相机 View Controller 的 viewWillAppear 方法中,我将 Audio Session 的类别设置为录制并将其设置为事件状态。在其 viewWillDisappear
如果 iPhone 连接了多个输入和输出附件,我希望用户能够手动选择输入和输出源。我可以通过查询 [[AVAudioSession sharedInstance] availableInputs] 手
我正在编写一个播放背景音乐的应用程序,为此我使用 AVAudioSession ,如下所示: [[AVAudioSession sharedInstance] setCategory:AVAudioS
我使用 AVSoundSession 来配置声音,并使用 AVAudioPlayer 来播放不同的声音。我搜索了很多,但没有找到任何东西。如何操作输出源? 我的 SoundManager 中需要一个方
我有一个可以显示视频的应用,我想要以下行为。 当视频首次出现在屏幕上并开始播放时,它的音频应该与可能已经在播放的其他应用的音频混合在一起。例如,如果用户正在收听 Spotify,他们应该听到来自 Sp
在我的 iOS 应用程序中,我正在像这样注册到 AVAudioSession 中断通知 [[NSNotificationCenter defaultCenter] addObserver:self s
我知道关于 AVAudioSession 也有类似的问题,但我的有点不同。我有 AVAudioSession 中断的问题。 拒绝通话后,它会恢复,但它只保存中断后录制的部分 - 通话前的部分就消失了。
我正在使用 AVAudioSession 来收听语音输入。它适用于有线耳机,但不适用于连接的蓝牙设备。以下是我用来设置蓝牙麦克风输入的代码 func setupSessionForRecording(
对于我正在制作的应用程序的一部分,我需要录制用户的音频。我已选择使用 AVAudioRecorder 来执行此操作。 问题是当我开始录制音频时,设备上播放的所有音频都暂停了。然后,我查看了 AVAud
我正在尝试在我的 Swift SpriteKit 应用程序中使用 AVAudioSession。我遇到了奇怪的“未声明类型”问题。例如…… import AVFoundation var audioS
我有一个应用程序使用 AVAudioSession 和 AVAudioSessionCategoryPlayAndRecord 来捕获麦克风输入。我正在寻找将高通(可能还有其他)滤波器应用于捕获的音频
我试图在通话期间模仿电话应用程序中的行为。您可以轻松地将输出源从/切换到扬声器或耳机。我知道当通过调用连接耳机时我可以强制扬声器作为输出: try! audioSession.setCategory(
我收到以下错误,但不知道是什么原因造成的。 Aug 4 15:04:56 MyiPad myApp[1523] : 15:04:56.072 ERROR: [0x78ba000] AVAudioSes
我在蓝牙播放方面遇到问题,但仅限于某些蓝牙设备。其他应用程序在这些相同的蓝牙设备上运行良好。我为 AVAudioSession 设置类别的方式是否遗漏了什么? let session = AV
嘿,下面是这段代码。我只是想得到它,以便如果他们是任何音乐、播客等正在从操作系统内的另一个应用程序播放,所有声音都会被静音。但是我已经尝试设置它的类别,但它不起作用!我没有使用正确的类别吗?也许不在正
在 iOS 中,我试图在播放某些音效时隐藏音乐应用程序的音乐。如果您不知道,“闪避”只是指在播放我的声音之前音乐音量降低一点,然后播放声音,然后音乐音量恢复到初始音量。 对于回避,我将 AVAudio
我想配置 AVAudioSession 以便我可以录制带音频的视频并播放音乐应用程序(或任何其他产生声音的应用程序,通常是互联网 radio 应用程序)中的音乐 我这样配置 session : try
我正在使用以下代码来检测可用的输出,但它没有接收到我连接的蓝牙设备。我知道我的蓝牙设备已正确连接,因为我正在用它播放音乐。 let session = AVAudioSession.sharedIns
我收到以下错误: [0x19bf89310] AVAudioSession.mm:646: -[AVAudioSession setActive:withOptions:error:]: Deacti
我是一名优秀的程序员,十分优秀!