- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在探索 python 中的谷歌云语音 api。我正在关注这个 link .我也提到了这个 stackoverflow link .但是我对设置环境变量感到震惊。
我做过的事情:
1.安装gcloud python模块
2.安装google-api-python-client模块
3.已经设置了服务账号(获取JSON文件)
4.获得API KEY
我对导出 GOOGLE_APPLICATION_CREDENTIALS 和 GCLOUD_PROJECT 环境变量感到震惊。
我的疑问是:
1.他们应该使用google cloud sdk导出吗?如果是这样,google cloud sdk在这里扮演什么角色,我们应该什么时候使用这个sdk?
2.由于我没有在代码中明确包含 API key ,这是否意味着我的身份验证是自动在线验证的?在这种情况下,下面代码中的 get_speech_service() 函数有什么作用?
下面是代码
import argparse
import base64
import json
import httplib2
from googleapiclient import discovery
from oauth2client.client import GoogleCredentials
if __name__ == '__main__':
parser = argparse.ArgumentParser()
parser.add_argument('speech_file',help='This is the path of the audio')
args = parser.parse_args()
print args.speech_file
main(args.speech_file)
def main(speech_file):
with open(speech_file,'rb') as speech:
speech_content = base64.b64encode(speech.read())
service = get_speech_service()
service_request = service.speech().syncrecognize(
body={
'config':{
'encoding':'LINEAR16',
'sampleRate':16000,
'languageCode':'en-US',
},
'audio':{
'content':speech_content.decode('UTF-8')
}
})
response = service_request.execute()
print(json.dumps(response))
DISCOVERY_URL = ('https://speech.googleapis.com/$discovery/rest?/version=v1beta1')
def get_speech_service():
credentials = GoogleCredentials.get_application_default().create_scoped(
['https://www.googleapis.com/auth/cloud-platform'])
http = httplib2.Http()
credentials.authorize(http)
return discovery.build('speech','v1beta1',http=http,discoveryServiceUrl=DISCOVERY_URL)
我谷歌了很多次,我得到了提到的stackoverflow链接,这澄清了一些事情。由于我对上述疑虑不清楚,所以我在这里发布。
最佳答案
以下步骤对我有用。希望对你有用。
从 github 克隆以下 repo:
git clone https://github.com/GoogleCloudPlatform/python-docs-samples.git
导航到文件夹:
cd python-docs-samples/speech/cloud-client/
安装 pip(我确定你已经有了)和 virtualenv 。执行以下命令:
$ virtualenv env
$ source env/bin/activate
然后从requirements.txt安装
pip install -r requirements.txt
定义并导出 google 凭据路径(您已经这样做了)。
export GOOGLE_APPLICATION_CREDENTIALS=/path/to/service_account_file.json
从快速示例脚本开始:
python quickstart.py
在此之后,您可以探索同一文件夹中的其他脚本,还可以尝试使用 URI 样本进行长时间识别。
关于speech-recognition - 如何在python中使用google cloud speech api,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41422512/
我有兴趣了解有关模式识别的更多信息。我知道这是一个广泛的领域,所以我将列出一些我想学习处理的特定类型的问题: 在看似随机的字节集中查找模式。 识别图像中的已知形状(例如圆形和正方形)。 注意给定位置流
.NET 中有两个类似的用于语音识别的命名空间和程序集。我试图了解其中的差异以及何时适合使用其中之一。 程序集 System.Speech(在 System.Speech.dll 中)有 System
我正在玩 IBM Watson 的语音到文本演示:https://speech-to-text-demo.mybluemix.net/ 。我上传了一个有 2 个扬声器的音频文件。 Watson 返回的
我使用 Google Speech API 进行语音到文本的转换。但是,它会过滤掉诸如“呃,嗯,啊”等填充词。我有什么办法可以获得包含填充词的文本? 最佳答案 使用像 Kaldi 这样更灵活的 api
我正在使用 Microsoft 的认知服务。我有一个音频输入,需要识别多个发言者及其各自的文本。 根据我的理解,Speaker Rekognition API 可以识别不同的个人,Bing Speec
我需要训练一个双向 LSTM 模型来识别离散语音(从 0 到 9 的单个数字)我已经记录了 100 个说话者的语音。我接下来该怎么做? (假设我将它们拆分为单个 .wav 文件,每个文件包含一个数字)
关闭。这个问题需要更多focused .它目前不接受答案。 想改善这个问题吗?更新问题,使其仅关注一个问题 editing this post . 4年前关闭。 Improve this questi
为计算加权 sigmoid 交叉熵损失或数据集不平衡情况下的任何加权损失选择权重的一般逻辑是什么?问题域基于视觉/图像分类。 最佳答案 这篇 CVPR '19 论文是一个很好的引用: "Class-B
是否有任何软件能够获取音频文件并输出语音 (IPA) 文本? 我了解那里的大部分软件都直接将其转化为一种语言,但是否有一种“可教”的? 最佳答案 CMU Sphinx也许能够做你想做的。有几个不同的版
我最近使用说话人识别库 - ALIZE 进行编程。但是我有一些关于如何安装和执行演示的问题。有人可以帮我看看我的安装和执行顺序有什么问题。 我使用 Mac OS 系统: 1、下载lib ALIZE和L
我认为有一些算法可以评估绘制符号和预期符号之间的差异,或者类似的东西。任何帮助将不胜感激 :)) 最佳答案 您可以实现一个简单的神经网络来识别手写数字。最简单的实现类型是通过反向传播训练的前馈网络(它
执行此操作的最佳库是什么。并且是质量好足以依靠。不可能用说话者的声音训练系统或使用术语词典来改善结果。 最佳答案 在 Windows 上,您想使用 SAPI 接口(interface)(语音 API)
我找到了一些使用深度学习进行音频分类的论文和幻灯片。 一些研究使用频谱图作为深度学习模型的输入。 我想知道确切和实际的实现。 我找到了 this slide . 第 67 页 据我了解,第一层节点数为
我正在使用Google的语音识别API。我用Java创建了一个包装器(像这样:http://pastebin.com/zJEhnJ74);一切正常,但有时我会收到http 403或http 500,所
我正在尝试结合语音识别和说话人二值化技术来识别对话中有多少说话人以及哪个说话人说了什么。 为此,我使用 CMU Sphinx和 LIUM Speaker Diarization . 我可以分别运行这两
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我正在尝试研究可用的语音识别引擎和 SDK,以开发支持 Windows CE 语音的应用程序。我遇到过 Nuance,但没有看到其他任何东西。如果可能的话,我更喜欢 .Net SDK,但我想大多数会是
我一直在对用于我的对象识别程序的正确算法进行大量搜索。但我发现的一切都有一些重大缺陷。 我的程序应该在遇到新对象时在线学习它们。当它遇到一个新对象时,在它上面有一个框并学习该对象(OpenTLD 完美
我正在尝试使用Pocketsphinx(。进行简单的语音到文本映射。语法非常简单,例如: public = (Matt, Anna, Tom, Christine)+ (One | Two | Th
我想在我的 Mac OS x 上实现一个通过麦克风接收语音的系统。我知道如果不训练系统,任意语音识别几乎是不可能的,所以我愿意将其限制为 10 个简单的句子。它必须高度准确地识别这 10 个句子中的哪
我是一名优秀的程序员,十分优秀!