- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在帮助客户使用 ffmpeg
转换视频文件他们最初使用-b:a 64k
同时以 44100 的采样率(-ar 44100
中的 ffmpeg
中的参数)将视频转码为音频。他们的目标是希望使用 Google Cloud Speech To Text API 生成最准确的转录。
在梳理他们的文档时,我没有发现任何关于比特率如何影响转录准确性的信息。所以我的问题是——是否会使用更高的比特率,例如 128k
帮助我获得更好的转录还是没关系?
最佳答案
比特率用于描述传输到音频中的数据量。更高的比特率通常意味着更好的音频质量。较高的比特率包含更多一般意义上的细节,意味着它具有更好的音质。与照片相比,高分辨率图片质量更好,因为其中包含更多细节。
Google reference建议以 16,000Hz
的采样率捕获音频或更高以获得使用 Google Speech-to-Text
的最佳结果.因此,为了获得最佳结果,较高的采样率或比特率是优选的,因为它是高质量的。
如果您正在处理 mono
音频文件,理论上是低质量的,您将其转换为更高的比特率,这不一定会提高转换后的音频质量。如果源音频文件用于将其转换为更高的比特率,理想情况下这将产生相同的质量,只是增加其比特率。因此,首先使用更高的比特率录制音频文件非常重要。
关于ffmpeg - 比特率在 Google Speech To Text 转录的准确性中起什么作用?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64428601/
有谁知道是否有可能将俄语输入转录为拉丁语? 有什么框架支持吗?我正在搜索字符集,但它不支持这种情况 提前致谢。 最佳答案 Map translit = new HashMap<>(); stati
我已经为一些包含希腊字母的字段建立了索引(例如Στεφαν)。就像在谷歌中一样,当我搜索 Stefan 时,我想找到这些文档。是否支持希腊语单词的音译/转录? 到目前为止,我已经尝试过 solr.AS
我想使用 pyspeech API 转录 mp3(语音到文本)。不过,我不知道这是否可行。 是吗?怎么办? 最佳答案 pyspeech 似乎只是常规 Windows 语音 API 的 python 接
我正在考虑设计一个软件平台,以帮助语言学家和人类学家研究以前未研究过的语言。统计数据显示,大约有 1,000 种语言从未被各自语言群体之外的人研究过。 我的目标是利用 TensorFlow 创建一个平
我抬头发现了这个 - https://learn.microsoft.com/en-us/azure/cognitive-services/speech-service/captioning-conc
我正在尝试在 Swift 中返回给定 DNA 链(字符串)的 RNA 互补序列。基本上,如果 DNA 有一个“T”,我会用“U”代替它。 我的代码是: func toRNA(DNA: String)
我可以像这样通过 AWS CLI 使用 AWS S3 服务: aws s3 cp FileToUpload.txt s3://MyBucketName/file.txt 如何使用 AWS 转录服务?通
在我的 iOS 应用程序中,我尝试使用 iOS 10 的最新功能 Speech API 来转录预先录制的音频。 多个来源,包括 documentation已声明语音 API(更具体地说是 SFSpee
我正在尝试使用 Microsoft Azure 的批量转录。关注官方documentation我想应该是这样的: 我将音频发送到服务 (POST) 获取结果。 (使用帖子的参数获取) 但我什么也没得到
我正在尝试使用 Microsoft Azure 的批量转录。关注官方documentation我想应该是这样的: 我将音频发送到服务 (POST) 获取结果。 (使用帖子的参数获取) 但我什么也没得到
我有一个 MP3 格式的长录音(小时以上)。以下是我设法从 FFMPEG 获得的关于音频文件的信息: [mp3 @ 000001fe666da320] Skipping 0 bytes of junk
我是一名优秀的程序员,十分优秀!