ios - 同时使用 SFSpeechRecognizer 和 AVSpeechSythesizer 时如何正确设置 AVAudioSession 和 AVAudioEngine-6ren

ios - 同时使用 SFSpeechRecognizer 和 AVSpeechSythesizer 时如何正确设置 AVAudioSession 和 AVAudioEngine

转载作者：行者123 更新时间：2023-12-01 16:14:04

我正在尝试创建一个同时利用 STT(语音到文本)和 TTS(文本到语音)的应用程序。但是，我遇到了一些模糊的问题，非常感谢您的专业知识。

该应用程序包含一个位于屏幕中央的按钮，单击该按钮可使用以下代码启动所需的语音识别功能。

// MARK: - Constant Properties

let audioEngine = AVAudioEngine()



// MARK: - Optional Properties

var recognitionRequest: SFSpeechAudioBufferRecognitionRequest?
var recognitionTask: SFSpeechRecognitionTask?
var speechRecognizer: SFSpeechRecognizer?



// MARK: - Functions

internal func startSpeechRecognition() {

    // Instantiate the recognitionRequest property.
    self.recognitionRequest = SFSpeechAudioBufferRecognitionRequest()

    // Set up the audio session.
    let audioSession = AVAudioSession.sharedInstance()
    do {
        try audioSession.setCategory(.record, mode: .measurement, options: [.defaultToSpeaker, .duckOthers])
        try audioSession.setActive(true, options: .notifyOthersOnDeactivation)
    } catch {
        print("An error has occurred while setting the AVAudioSession.")
    }

    // Set up the audio input tap.
    let inputNode = self.audioEngine.inputNode
    let inputNodeFormat = inputNode.outputFormat(forBus: 0)

    self.audioEngine.inputNode.installTap(onBus: 0, bufferSize: 512, format: inputNodeFormat, block: { [unowned self] buffer, time in
        self.recognitionRequest?.append(buffer)
    })

    // Start the recognition task.
    guard
        let speechRecognizer = self.speechRecognizer,
        let recognitionRequest = self.recognitionRequest else {
            fatalError("One or more properties could not be instantiated.")
    }

    self.recognitionTask = speechRecognizer.recognitionTask(with: recognitionRequest, resultHandler: { [unowned self] result, error in

        if error != nil {

            // Stop the audio engine and recognition task.
            self.stopSpeechRecognition()

        } else if let result = result {

            let bestTranscriptionString = result.bestTranscription.formattedString

            self.command = bestTranscriptionString
            print(bestTranscriptionString)

        }

    })

    // Start the audioEngine.
    do {
        try self.audioEngine.start()
    } catch {
        print("Could not start the audioEngine property.")
    }

}



internal func stopSpeechRecognition() {

    // Stop the audio engine.
    self.audioEngine.stop()
    self.audioEngine.inputNode.removeTap(onBus: 0)

    // End and deallocate the recognition request.
    self.recognitionRequest?.endAudio()
    self.recognitionRequest = nil

    // Cancel and deallocate the recognition task.
    self.recognitionTask?.cancel()
    self.recognitionTask = nil

}

当单独使用时，这段代码就像一个魅力。但是，当我想使用 AVSpeechSynthesizer 对象读取转录的文本时，似乎没有什么是清楚的。

看了多个Stack Overflow帖子的建议，建议修改

audioSession.setCategory(.record, mode: .measurement, options: [.defaultToSpeaker, .duckOthers])

以下内容

audioSession.setCategory(.playAndRecord, mode: .default, options: [.defaultToSpeaker, .duckOthers])

还是徒劳。在分别运行 STT 和 TTS 后，应用程序仍然崩溃。

我的解决方案是使用这个而不是前面提到的

audioSession.setCategory(.multiRoute, mode: .default, options: [.defaultToSpeaker, .duckOthers])

这让我完全不知所措，因为我真的不知道发生了什么错综复杂的事情。如果有任何相关解释，我将不胜感激!

最佳答案

我也在用 SFSpeechRecognizer 和 AVSpeechSythesizer 开发一个应用程序，对我来说 .setCategory(.playAndRecord, mode: .default) 工作正常，它是我们需要的最佳类别，according to Apple .甚至，我能够在音频引擎运行时 .speak() SFSpeechRecognitionTask 的每个转录，没有任何问题。我的意见是你的程序逻辑中的某个地方导致了崩溃。如果您可以用相应的错误更新您的问题，那就太好了。

关于为什么 .multiRoute 类别有效:我猜 AVAudioInputNode 有问题。如果您在控制台中看到这样的错误

Terminating app due to uncaught exception 'com.apple.coreaudio.avfaudio', reason: 'required condition is false: IsFormatSampleRateAndChannelCountValid(hwFormat)

或者像这样

Terminating app due to uncaught exception 'com.apple.coreaudio.avfaudio', reason: 'required condition is false: nullptr == Tap()

您只需要对代码的某些部分重新排序，例如将 Audio Session 的设置移动到只被调用一次的地方，或者确保输入节点的抽头总是在安装新的之前删除，即使识别任务是否成功完成。也许(我从未使用过它).multiRoute 能够通过 its nature 处理不同的音频流和路由来重用相同的输入节点。

在 Apple 的 WWDC session 之后，我在我的程序中使用的逻辑如下:

设置类别

override func viewDidLoad() { //or init() or when necessarily
    super.viewDidLoad()
    try? AVAudioSession.sharedInstance().setCategory(.playAndRecord, mode: .default)
}

验证/权限

func shouldProcessSpeechRecognition() {
    guard AVAudioSession.sharedInstance().recordPermission == .granted,
        speechRecognizerAuthorizationStatus == .authorized,
        let speechRecognizer = speechRecognizer, speechRecognizer.isAvailable else { return }
        //Continue only if we have authorization and recognizer is available

        startSpeechRecognition()
}

开始STT

func startSpeechRecognition() {
    let format = audioEngine.inputNode.outputFormat(forBus: 0)
    audioEngine.inputNode.installTap(onBus: 0, bufferSize: 1024, format: format) { [unowned self] (buffer, _) in
        self.recognitionRequest.append(buffer)
    }
    audioEngine.prepare()
    do {
        try audioEngine.start()
        recognitionTask = speechRecognizer!.recognitionTask(with: recognitionRequest, resultHandler: {...}
    } catch {...}
}

结束STT

func endSpeechRecognition() {
    recognitionTask?.finish()
    stopAudioEngine()
}

取消STT

func cancelSpeechRecognition() {
    recognitionTask?.cancel()
    stopAudioEngine()
}

停止音频引擎

func stopAudioEngine() {
    audioEngine.stop()
    audioEngine.inputNode.removeTap(onBus: 0)
    recognitionRequest.endAudio()        
}

有了它，我可以在我的代码中的任何地方调用一个 AVSpeechSynthesizer 实例并说出一段话。

关于ios - 同时使用 SFSpeechRecognizer 和 AVSpeechSythesizer 时如何正确设置 AVAudioSession 和 AVAudioEngine，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53147291/

文章推荐： ios - 如何使用UIDocumentPickerViewController获得原始文件名？

文章推荐： ios - 如何在实际设备上调试CarPlay应用

文章推荐： sql-server - varchar 和 nvarchar 有什么区别？

文章推荐： android - Flutter - TextFormField 的异步验证器

avaudiosession - iOS8 AVAudioSession setActive错误
我正在 XCode 6 中测试我的应用程序，并发现 iOS8 中的 AVAudioSession 存在问题。当我打电话时 [[AVAudioSession sharedInstance] setAc
avaudiosession - 录制后如何恢复背景音乐
在我的相机 View Controller 的 viewWillAppear 方法中，我将 Audio Session 的类别设置为录制并将其设置为事件状态。在其 viewWillDisappear
ios7 - AVAudioSession 输出选择
如果 iPhone 连接了多个输入和输出附件，我希望用户能够手动选择输入和输出源。我可以通过查询 [[AVAudioSession sharedInstance] availableInputs] 手
iphone - AVAudioSession 阻止系统音频
我正在编写一个播放背景音乐的应用程序，为此我使用 AVAudioSession ，如下所示: [[AVAudioSession sharedInstance] setCategory:AVAudioS
ios - AVAudioSession 操纵声音输出
我使用 AVSoundSession 来配置声音，并使用 AVAudioPlayer 来播放不同的声音。我搜索了很多，但没有找到任何东西。如何操作输出源？我的 SoundManager 中需要一个方
ios - AVAudioSession 在混合和非混合模式之间切换
我有一个可以显示视频的应用，我想要以下行为。当视频首次出现在屏幕上并开始播放时，它的音频应该与可能已经在播放的其他应用的音频混合在一起。例如，如果用户正在收听 Spotify，他们应该听到来自 Sp
ios - AVAudioSession 中断通知只触发一次
在我的 iOS 应用程序中，我正在像这样注册到 AVAudioSession 中断通知 [[NSNotificationCenter defaultCenter] addObserver:self s
ios - AVAudioSession 在拒绝电话调用时中断
我知道关于 AVAudioSession 也有类似的问题，但我的有点不同。我有 AVAudioSession 中断的问题。拒绝通话后，它会恢复，但它只保存中断后录制的部分 - 通话前的部分就消失了。
ios - AVAudioSession 无法识别来自蓝牙设备的音频
我正在使用 AVAudioSession 来收听语音输入。它适用于有线耳机，但不适用于连接的蓝牙设备。以下是我用来设置蓝牙麦克风输入的代码 func setupSessionForRecording(
ios - AVAudioSession 在播放奇怪问题时记录
对于我正在制作的应用程序的一部分，我需要录制用户的音频。我已选择使用 AVAudioRecorder 来执行此操作。问题是当我开始录制音频时，设备上播放的所有音频都暂停了。然后，我查看了 AVAud
ios - AVAudioSession 未知
我正在尝试在我的 Swift SpriteKit 应用程序中使用 AVAudioSession。我遇到了奇怪的“未声明类型”问题。例如…… import AVFoundation var audioS
iOS AVAudioSession 应用高通滤波器
我有一个应用程序使用 AVAudioSession 和 AVAudioSessionCategoryPlayAndRecord 来捕获麦克风输入。我正在寻找将高通(可能还有其他)滤波器应用于捕获的音频
ios - AVAudioSession - 如何在扬声器和耳机输出之间切换
我试图在通话期间模仿电话应用程序中的行为。您可以轻松地将输出源从/切换到扬声器或耳机。我知道当通过调用连接耳机时我可以强制扬声器作为输出: try! audioSession.setCategory(
ios - AVAudioSession 错误
我收到以下错误，但不知道是什么原因造成的。 Aug 4 15:04:56 MyiPad myApp[1523] : 15:04:56.072 ERROR: [0x78ba000] AVAudioSes
ios - AVAudioSession 在某些蓝牙设备上不工作
我在蓝牙播放方面遇到问题，但仅限于某些蓝牙设备。其他应用程序在这些相同的蓝牙设备上运行良好。我为 AVAudioSession 设置类别的方式是否遗漏了什么？ let session = AV
ios - AVAudioSession 在系统声音之上播放
嘿，下面是这段代码。我只是想得到它，以便如果他们是任何音乐、播客等正在从操作系统内的另一个应用程序播放，所有声音都会被静音。但是我已经尝试设置它的类别，但它不起作用!我没有使用正确的类别吗？也许不在正
iOS AVAudioSession 闪避慢且同步
在 iOS 中，我试图在播放某些音效时隐藏音乐应用程序的音乐。如果您不知道，“闪避”只是指在播放我的声音之前音乐音量降低一点，然后播放声音，然后音乐音量恢复到初始音量。对于回避，我将 AVAudio
ios - AVAudioSession 配置给别人录音播放
我想配置 AVAudioSession 以便我可以录制带音频的视频并播放音乐应用程序(或任何其他产生声音的应用程序，通常是互联网 radio 应用程序)中的音乐我这样配置 session : try
ios - AVAudioSession 未检测到已连接的蓝牙设备
我正在使用以下代码来检测可用的输出，但它没有接收到我连接的蓝牙设备。我知道我的蓝牙设备已正确连接，因为我正在用它播放音乐。 let session = AVAudioSession.sharedIns
ios - AVAudioSession 重新激活问题
我收到以下错误: [0x19bf89310] AVAudioSession.mm:646: -[AVAudioSession setActive:withOptions:error:]: Deacti

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城