- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在考虑设计一个软件平台,以帮助语言学家和人类学家研究以前未研究过的语言。统计数据显示,大约有 1,000 种语言从未被各自语言群体之外的人研究过。
我的目标是利用 TensorFlow 创建一个平台,让语言学家能够更有效地研究和记录这些语言,并帮助他们为那些还没有书面系统的语言创建书面系统。他们目前完成此类任务的方法有三部分:1) 录制母语人士用该语言交谈的内容,2) 收听该录音并尝试将其转录成国际音标,3) 从语音学出发,分析音位和语言的音位学,最终为说话者创建一个书面系统。
我提议的平台会将研究时间从至少一年缩短到最多六个月。在开始之前,我有一些问题......
训练 TensorFlow 将实时音频转录为 IPA 需要什么?这已经完成了吗?如果是这样,我将如何利用该项目以前的解决方案?使用 TensorFlow 可以实现这样的项目吗?如果没有,您建议使用什么来代替?
对于这个问题的严重性,我深表歉意。我在机器学习领域没有太多经验,因为我刚刚开始这个项目的研究过程。如有任何帮助,我们将不胜感激!
最佳答案
我想我会首先回答这个问题。由于问题非常笼统,所以我的回答也必须非常笼统。
需要什么。至少您必须拥有大量预先转录的数据。理想情况下,大量口语音频映射到拼音字母中的字符,因此系统可以学习单个字符的声音,而不是整个转录单词的声音。如果这样的数据集不存在,则可以使用粒度较小的数据集,将单个单词映射到其转录。然后你需要一个模型,即以代码实现的实际神经网络架构。最后,您需要一些计算资源。这不是你可以随意训练的东西,你要么必须在基于云的机器学习框架(如 Google Cloud ML)上花费一些时间,要么构建一个相当昂贵的机器在家训练。
这已经完成了吗?我不知道。我不这么认为。已经发表的论文报告了语音转录训练系统取得了不同程度的成功。例如,http://deeplearning.stanford.edu/lexfree/lexfree.pdf看来,由于您想要转录的字母表是专门为捕获单词的发音方式而设计的,而不仅仅是写下单词,因此您可能会在训练这样的模型时取得更大的成功。
使用 TensorFlow 可以吗?是的,很有可能。 TensorFlow 非常适合实现大多数现代深度学习架构。除非您最终为此目的设计了一些非常奇怪且非常原创的模型,否则 TensorFlow 应该可以正常工作。
编辑:经过第 1 部分的思考,您必须使用一个数据集将口语单词映射到其转录,因为我预计相同的声音单独发音时会有所不同用于单词中。
关于tensorflow - 使用 Tensorflow 进行 IPA(国际音标)转录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46694770/
有谁知道是否有可能将俄语输入转录为拉丁语? 有什么框架支持吗?我正在搜索字符集,但它不支持这种情况 提前致谢。 最佳答案 Map translit = new HashMap<>(); stati
我已经为一些包含希腊字母的字段建立了索引(例如Στεφαν)。就像在谷歌中一样,当我搜索 Stefan 时,我想找到这些文档。是否支持希腊语单词的音译/转录? 到目前为止,我已经尝试过 solr.AS
我想使用 pyspeech API 转录 mp3(语音到文本)。不过,我不知道这是否可行。 是吗?怎么办? 最佳答案 pyspeech 似乎只是常规 Windows 语音 API 的 python 接
我正在考虑设计一个软件平台,以帮助语言学家和人类学家研究以前未研究过的语言。统计数据显示,大约有 1,000 种语言从未被各自语言群体之外的人研究过。 我的目标是利用 TensorFlow 创建一个平
我抬头发现了这个 - https://learn.microsoft.com/en-us/azure/cognitive-services/speech-service/captioning-conc
我正在尝试在 Swift 中返回给定 DNA 链(字符串)的 RNA 互补序列。基本上,如果 DNA 有一个“T”,我会用“U”代替它。 我的代码是: func toRNA(DNA: String)
我可以像这样通过 AWS CLI 使用 AWS S3 服务: aws s3 cp FileToUpload.txt s3://MyBucketName/file.txt 如何使用 AWS 转录服务?通
在我的 iOS 应用程序中,我尝试使用 iOS 10 的最新功能 Speech API 来转录预先录制的音频。 多个来源,包括 documentation已声明语音 API(更具体地说是 SFSpee
我正在尝试使用 Microsoft Azure 的批量转录。关注官方documentation我想应该是这样的: 我将音频发送到服务 (POST) 获取结果。 (使用帖子的参数获取) 但我什么也没得到
我正在尝试使用 Microsoft Azure 的批量转录。关注官方documentation我想应该是这样的: 我将音频发送到服务 (POST) 获取结果。 (使用帖子的参数获取) 但我什么也没得到
我有一个 MP3 格式的长录音(小时以上)。以下是我设法从 FFMPEG 获得的关于音频文件的信息: [mp3 @ 000001fe666da320] Skipping 0 bytes of junk
我是一名优秀的程序员,十分优秀!