gpt4 book ai didi

audio - 对于将音频文件转录为.txt文件,您会建议使用什么?

转载 作者:行者123 更新时间:2023-12-02 23:32:13 25 4
gpt4 key购买 nike

我正在做一个小型学校项目,在该项目中,我必须提取大量音频文件并将其转录为.txt文件。我是编程的初学者。
到目前为止,我已经使用Google的Cloud Speech API尝试了alexkras方法。但是我不能将其用于大量转录,因为它是通过使用外部软件将音频转换为.wav来完成的(这也可以通过ffmpeg完成,所以没什么大不了的),然后将新的.wav文件拆分为<60s零件,因为Cloud Speech一次只能转录<60s,这在翻译中会造成很大的损失,除非您将它们上传到GCS,但这也是批量转录的问题,因为某些.wav文件足够大(我使用了1小时的播客,到800mb的文件中)的速度变慢了。

我尝试的下一个是使用gcloud SDK,并使用终端中的一小段代码直接在GCS上转录音频文件,现在我在这里观察到的问题是转录不完整,并且以这种方式显示了转录,

来自Google的示例:

   {
"@type": "type.googleapis.com/google.cloud.speech.v1.LongRunningRecognizeResponse",
"results": [
{
"alternatives": [
{
"confidence": 0.9840146,
"transcript": "how old is the Brooklyn Bridge"
}
]
}
]
}

这并不理想,也许有一种方法可以将其传输到文本文件中,但是到目前为止我所做的转录还不够完整,我从11分钟的视频中总共得到了少于30行的文本。

我尝试过的最有效的方法是alexkras方法,但是正如我上面所说的,它也存在问题(以我为例)。我一直在研究用于语音到文本的机器学习方法,以便它也可以识别或转录带有重音的音频。

你们知道有什么方法可以帮助我有效地将大量音频转录为文本吗?如果不是用于文件拆分或不将其上传到GSC,那么使用alexkras方法会非常满意。我将不胜感激与此有关的任何帮助或建议。谢谢。

最佳答案

您可以尝试使用Watson STT API,文件/流大小限制为100MB,这意味着,如果使用正确的编码,则可以解码长达几个小时的文件。您可以根据需要使用soxffmpeg进行音频转换,重量较轻的编解码器为audio/ogg
https://www.ibm.com/watson/developercloud/speech-to-text/api/v1/#recognize_sessionless12

请参阅curl示例以帮助您入门

关于audio - 对于将音频文件转录为.txt文件,您会建议使用什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50775867/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com