gpt4 book ai didi

python - 使用 python 将视频 session 中的音频流传输到 azure 语音翻译

转载 作者:行者123 更新时间:2023-12-03 03:36:09 25 4
gpt4 key购买 nike

我正在使用 Mac,并尝试使用 python 和 Blackhole 捕获 Zoom 音频输出作为 Azure 语音翻译模型的输入。

我将“缩放”设置为 enter image description here

并将 Azure Translation_recognizer 对象设置为“多输出设备”

enter image description here

但是,当我将 AutoConfig 的 device_name 设置为虚拟设备时,我收到一个运行时错误,我不明白该错误,并且似乎无法在任何地方找到建议。

堆栈跟踪:

/usr/local/bin/python3.9 /Users/sethhammock/Scripts/translate_speech_continuous.py 
SESSION STARTED: SessionEventArgs(session_id=116958757375422f9b8f5c6a31aed3c9)
Traceback (most recent call last):
File "/Users/sethhammock/Scripts/translate_speech_continuous.py", line 48, in <module>
translation_recognizer.start_continuous_recognition()
File "/usr/local/lib/python3.9/site-packages/azure/cognitiveservices/speech/speech.py", line 664, in start_continuous_recognition
return self._impl.start_continuous_recognition_async().get()
File "/usr/local/lib/python3.9/site-packages/azure/cognitiveservices/speech/speech_py_impl.py", line 1978, in get
return _speech_py_impl.VoidFuture_get(self)
RuntimeError: Exception with an error code: 0x15 (SPXERR_MIC_ERROR)
[CALL STACK BEGIN]

3 libMicrosoft.CognitiveServices.Spee 0x00000001093c464e GetModuleObject + 716126
4 libMicrosoft.CognitiveServices.Spee 0x00000001094322fe GetModuleObject + 1165838
5 libMicrosoft.CognitiveServices.Spee 0x0000000109442c41 GetModuleObject + 1233745
6 libMicrosoft.CognitiveServices.Spee 0x000000010943cabc GetModuleObject + 1208780
7 libMicrosoft.CognitiveServices.Spee 0x000000010943c3c2 GetModuleObject + 1206994
8 libMicrosoft.CognitiveServices.Spee 0x0000000109439941 GetModuleObject + 1196113
9 libMicrosoft.CognitiveServices.Spee 0x0000000109546d1a _ZN13FileBlobWrite11WriteToFileEPviPKc + 671994
10 libMicrosoft.CognitiveServices.Spee 0x0000000109543e52 _ZN13FileBlobWrite11WriteToFileEPviPKc + 660018
11 libMicrosoft.CognitiveServices.Spee 0x00000001094b2f5f _ZN13FileBlobWrite11WriteToFileEPviPKc + 66367
12 libMicrosoft.CognitiveServices.Spee 0x00000001094b08c2 _ZN13FileBlobWrite11WriteToFileEPviPKc + 56482
13 libMicrosoft.CognitiveServices.Spee 0x00000001094cefb6 _ZN13FileBlobWrite11WriteToFileEPviPKc + 181142
14 libMicrosoft.CognitiveServices.Spee 0x0000000109329fc6 GetModuleObject + 83670
15 libMicrosoft.CognitiveServices.Spee 0x0000000109329f59 GetModuleObject + 83561
16 libMicrosoft.CognitiveServices.Spee 0x000000010932be2b GetModuleObject + 91451
17 libMicrosoft.CognitiveServices.Spee 0x000000010932a113 GetModuleObject + 84003
18 libMicrosoft.CognitiveServices.Spee 0x000000010932d4f8 GetModuleObject + 97288
19 libsystem_pthread.dylib 0x00007ff8035464e1 _pthread_start + 125
[CALL STACK END]



Process finished with exit code 1

我认为运行时错误是由于 16Hz 的采样率造成的,但使用 Blackhole,可以使用简单的 GUI 轻松配置。

我发现 AudioConfig 需要携带 ALSA 样式的 device_name=device_name,但是,我认为它不会在 Mac OS 上工作,因为尝试在 cmd 行上安装 alsa-lib 会显示“。 ..这需要 Linux”。

ALSA 风格的设备名称类似于 hw:X,Y,其中 X 是设备,Y 是卡号(如果我理解正确的话)。 ALSA 显然可以在 Debian 上运行,但不能在 BSD 上运行,而 BSD 正是 Mac OS 的基础,所以我这样做是在浪费时间吗?

任何人都可以帮助我了解如何设置speechsdk.audio.AudioConfig(device_name="Blackhole 16ch") 或peechsdk.audio.AudioConfig(device_name="hw:0,2")或者如果我在设备命名约定方面遗漏了一些我想要实现的目标?

我尝试使用文件来读取,效果很好!它只是读取我的音频文件并返回翻译结果。

那么,由于没有 ALSA 风格的命名约定,命名设备无法工作,是否会将音频流写入文件,并让 Azure 在工作中读取它?

非常感谢任何想法!

最佳答案

我使用这些工具来检查 https://github.com/jimbobbennett/AudioIds

我编译代码来获取我的 blackhoide 设备名称

2022-09-26 14:39:03.339591+0800 AudioIds[5533:2695040] {
deviceName = "BlackHole 16ch";
deviceUID = "BlackHole16ch_UID";
}

我和你有同样的申请。我使用该设置,它可以与我一起转录。

audio_config = speechsdk.audio.AudioConfig(device_name="BlackHole16ch_UID")

关于python - 使用 python 将视频 session 中的音频流传输到 azure 语音翻译,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/73282571/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com