- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想要 2 个人在视频中讲话的文字记录,但我从 Cloud Speech-to-Text API 得到一个空的响应
方法:
我有一个 56 分钟的视频文件,其中包含两个人之间的对话。我想要那次谈话的文字记录,我想使用 Google 的 Cloud Speech-to-Text API 来获得它。
为了在我的谷歌云存储上节省一点,我首先使用 mmpeg
将视频转换为音频。
首先,我尝试使用下面的命令找出音频编解码器,它看起来像 AAC。ffmpeg -i video.mp4
Input #0, mov,mp4,m4a,3gp,3g2,mj2, from 'videoplayback.mp4':
Metadata:
major_brand : mp42
minor_version : 0
compatible_brands: isommp42
creation_time : 2015-12-30T08:17:14.000000Z
Duration: 00:56:03.99, start: 0.000000, bitrate: 362 kb/s
Stream #0:0(und): Video: h264 (Constrained Baseline) (avc1 / 0x31637661), yuv420p, 490x360 [SAR 1:1 DAR 49:36], 264 kb/s, 29.97 fps, 29.97 tbr, 30k tbn, 59.94 tbc (default)
Metadata:
handler_name : VideoHandler
Stream #0:1(eng): Audio: aac (LC) (mp4a / 0x6134706D), 44100 Hz, stereo, fltp, 96 kb/s (default)
Metadata:
creation_time : 2015-12-30T08:17:31.000000Z
handler_name : IsoMedia File Produced by Google, 5-11-2011
ffmpeg -i video.mp4 -vn -acodec copy myaudio.aac
ffmpeg -i myaudio.aac
输出:
Input #0, aac, from 'myaudio.aac':
Duration: 00:56:47.49, bitrate: 97 kb/s
Stream #0:0: Audio: aac (LC), 44100 Hz, stereo, fltp, 97 kb/s
ffmpeg -i myaudio.aac -acodec libopus -b:a 97k -vbr on -compression_level 10 myaudio.opus
opusinfo myaudio.opus
User comments section follows...
encoder=Lavc58.18.100 libopus
Opus stream 1:
Pre-skip: 312
Playback gain: 0 dB
Channels: 2
Original sample rate: 48000Hz
Packet duration: 20.0ms (max), 20.0ms (avg), 20.0ms (min)
Page duration: 1000.0ms (max), 1000.0ms (avg), 1000.0ms (min)
Total data length: 29956714 bytes (overhead: 0.872%)
Playback length: 56m:03.990s
Average bitrate: 71.24 kb/s, w/o overhead: 70.62 kb/s
myaudio.opus
上传到了 Google Cloud Storage。
curl
进行 POST 来开始语音识别:
curl --request POST --header "Content-Type: application/json" --url 'https://speech.googleapis.com/v1/speech:longrunningrecognize?fields=done%2Cerror%2Cmetadata%2Cname%2Cresponse&key={MY_API_KEY}' --data '{"audio": {"uri": "gs://{MY_BUCKET}/myaudio.opus"},"config": {"encoding": "OGG_OPUS", "sampleRateHertz": 48000, "languageCode": "en-US"}}'
{"name": "123456789"}
123456789 不是实际值。
curl --request GET --url 'https://speech.googleapis.com/v1/operations/123456789?fields=done%2Cerror%2Cmetadata%2Cname%2Cresponse&key={MY_API_KEY}'
Error : Unable to recognize speech, possible error in encoding or channel config. Please correct the config and retry the request.
OGG_OPUS
更新为
LINEAR16
。
curl --request POST --header "Content-Type: application/json" --url 'https://speech.googleapis.com/v1/speech:longrunningrecognize?fields=done%2Cerror%2Cmetadata%2Cname%2Cresponse&key={MY_API_KEY}' --data '{"audio": {"uri": "gs://{MY_BUCKET}/myaudio.opus"},"config": {"encoding": "LINEAR16", "sampleRateHertz": 48000, "languageCode": "en-US"}}'
{"name": "987654321"}
curl --request GET --url 'https://speech.googleapis.com/v1/operations/987654321?fields=done%2Cerror%2Cmetadata%2Cname%2Cresponse&key={MY_API_KEY}'
{
"name": "987654321",
"metadata": {
"@type": "type.googleapis.com/google.cloud.speech.v1.LongRunningRecognizeMetadata",
"progressPercent": 100,
"startTime": "2018-06-08T11:01:24.596504Z",
"lastUpdateTime": "2018-06-08T11:01:51.825882Z"
},
"done": true
}
response
键。
最佳答案
Looks like目前仅支持 WAV 和 FLAC。
使用 gcloud
在本地命令,我成功了:
gcloud ml speech recognize-long-running gs://bucket-name/file.flac --language-code en-US --include-word-time-offsets > my_transcription.json
关于ffmpeg - 如何使用 Google 的 Cloud Speech-to-Text REST API 转录视频,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50760057/
有谁知道是否有可能将俄语输入转录为拉丁语? 有什么框架支持吗?我正在搜索字符集,但它不支持这种情况 提前致谢。 最佳答案 Map translit = new HashMap<>(); stati
我已经为一些包含希腊字母的字段建立了索引(例如Στεφαν)。就像在谷歌中一样,当我搜索 Stefan 时,我想找到这些文档。是否支持希腊语单词的音译/转录? 到目前为止,我已经尝试过 solr.AS
我想使用 pyspeech API 转录 mp3(语音到文本)。不过,我不知道这是否可行。 是吗?怎么办? 最佳答案 pyspeech 似乎只是常规 Windows 语音 API 的 python 接
我正在考虑设计一个软件平台,以帮助语言学家和人类学家研究以前未研究过的语言。统计数据显示,大约有 1,000 种语言从未被各自语言群体之外的人研究过。 我的目标是利用 TensorFlow 创建一个平
我抬头发现了这个 - https://learn.microsoft.com/en-us/azure/cognitive-services/speech-service/captioning-conc
我正在尝试在 Swift 中返回给定 DNA 链(字符串)的 RNA 互补序列。基本上,如果 DNA 有一个“T”,我会用“U”代替它。 我的代码是: func toRNA(DNA: String)
我可以像这样通过 AWS CLI 使用 AWS S3 服务: aws s3 cp FileToUpload.txt s3://MyBucketName/file.txt 如何使用 AWS 转录服务?通
在我的 iOS 应用程序中,我尝试使用 iOS 10 的最新功能 Speech API 来转录预先录制的音频。 多个来源,包括 documentation已声明语音 API(更具体地说是 SFSpee
我正在尝试使用 Microsoft Azure 的批量转录。关注官方documentation我想应该是这样的: 我将音频发送到服务 (POST) 获取结果。 (使用帖子的参数获取) 但我什么也没得到
我正在尝试使用 Microsoft Azure 的批量转录。关注官方documentation我想应该是这样的: 我将音频发送到服务 (POST) 获取结果。 (使用帖子的参数获取) 但我什么也没得到
我有一个 MP3 格式的长录音(小时以上)。以下是我设法从 FFMPEG 获得的关于音频文件的信息: [mp3 @ 000001fe666da320] Skipping 0 bytes of junk
我是一名优秀的程序员,十分优秀!