- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在 Unity 中使用 Watson Assistant、语音转文本和文本转语音制作了一个应用程序,用户可以在其中说出不同的城市以查找所述城市之间的可用机票。对话和互动效果很好,但有时我会遇到用户说出某些城市时无法识别的问题。例如柏林,有时它理解柏林,有时它理解燃烧。巴黎、伦敦和 Jakarta 等其他城市也是如此。
因此,城市名称的检测并不总是像我希望的那样准确。但我在一些帖子中看到,您可以制作自己的自定义模型来改进对这些词的检测。但我不知道如何设置、制作自己的自定义模型以及如何将这些城市添加到模型中并进行训练。是否可以在 Unity C# 脚本中执行此操作,我将如何开始?有一些我可以看的 C# 示例吗?任何帮助将不胜感激。
这些是我找到的一些链接和信息,但不知道如何在 C# 中实现它以及我自己关于提高城市检测准确性的目的。
DwAnswers1 DwAnswers2 StackOverflow IBM clouds docs Medium cURL tutorial
这是我在 Watson API 和 Unity 之间进行交互的 C# 脚本。我想我也必须在这里添加自定义模型,但我不知道我是否也应该在其中创建自定义模型,或者它是否需要在单独的脚本中。
using System.Collections;
using System.Collections.Generic;
using UnityEngine;
using IBM.Watson.DeveloperCloud.Services.TextToSpeech.v1;
using IBM.Watson.DeveloperCloud.Services.Conversation.v1;
using IBM.Watson.DeveloperCloud.Services.ToneAnalyzer.v3;
using IBM.Watson.DeveloperCloud.Services.SpeechToText.v1;
using IBM.Watson.DeveloperCloud.Logging;
using IBM.Watson.DeveloperCloud.Utilities;
using IBM.Watson.DeveloperCloud.Connection;
using IBM.Watson.DeveloperCloud.DataTypes;
using MiniJSON;
using UnityEngine.UI;
using FullSerializer;
public class WatsonAgent : MonoBehaviour
public string literalEntityCity;
public string destinationCity;
public string departureCity;
public string dateBegin;
public string dateEnd;
public WeatherJSON weather;
public GameObject FlightInfo;
private fsSerializer _serializer = new fsSerializer();
public class CredentialInformation
public string username, password, url;
public class Services
public CredentialInformation
public Services
[Header("Agent voice settings")]
public AudioSource
public VoiceType
[Header("Conversation settings")]
public string
[Header("Feedback fields")]
public Text
public Text
public Text
public string
// services
private int
recordingRoutine = 0,
recordingBufferSize = 1,
recordingHZ = 22050;
private string
microphoneID = null;
private AudioClip
recording = null;
private Dictionary<string, object>
conversationContext = null;
private void Start()
void PrepareCredentials()
speechToText = new SpeechToText(GetCredentials(serviceCredentials.speechToText));
textToSpeech = new TextToSpeech(GetCredentials(serviceCredentials.textToSpeech));
conversation = new Conversation(GetCredentials(serviceCredentials.conversation));
Credentials GetCredentials(CredentialInformation credentialInformation)
return new Credentials(credentialInformation.username, credentialInformation.password, credentialInformation.url);
void Initialize()
conversation.VersionDate = "2017-05-26";
Active = true;
// speech to text
public bool Active
get { return speechToText.IsListening; }
if (value && !speechToText.IsListening)
speechToText.DetectSilence = true;
speechToText.EnableWordConfidence = true;
speechToText.EnableTimestamps = true;
speechToText.SilenceThreshold = 0.01f;
speechToText.MaxAlternatives = 0;
speechToText.EnableInterimResults = true;
speechToText.OnError = OnSpeechError;
speechToText.InactivityTimeout = -1;
speechToText.ProfanityFilter = false;
speechToText.SmartFormatting = true;
speechToText.SpeakerLabels = false;
speechToText.WordAlternativesThreshold = null;
//speechToText.CustomizationId = "customID"; // I guess i have to add the custom training model here with the customID
//speechToText.CustomizationWeight(0.2); //
else if (!value && speechToText.IsListening)
private void StartRecording()
if (recordingRoutine == 0)
recordingRoutine = Runnable.Run(RecordingHandler());
private void StopRecording()
if (recordingRoutine != 0)
recordingRoutine = 0;
private void OnSpeechError(string error)
Active = false;
Log.Debug("ExampleStreaming.OnError()", "Error! {0}", error);
private IEnumerator RecordingHandler()
recording = Microphone.Start(microphoneID, true, recordingBufferSize, recordingHZ);
yield return null; // let _recordingRoutine get set..
if (recording == null)
yield break;
bool bFirstBlock = true;
int midPoint = recording.samples / 2;
float[] samples = null;
while (recordingRoutine != 0 && recording != null)
int writePos = Microphone.GetPosition(microphoneID);
if (writePos > recording.samples || !Microphone.IsRecording(microphoneID))
Debug.Log("Microphone disconnected.");
yield break;
if ((bFirstBlock && writePos >= midPoint) || (!bFirstBlock && writePos < midPoint))
// front block is recorded, make a RecordClip and pass it onto our callback.
samples = new float[midPoint];
recording.GetData(samples, bFirstBlock ? 0 : midPoint);
AudioData record = new AudioData();
record.MaxLevel = Mathf.Max(Mathf.Abs(Mathf.Min(samples)), Mathf.Max(samples));
record.Clip = AudioClip.Create("Recording", midPoint, recording.channels, recordingHZ, false);
record.Clip.SetData(samples, 0);
bFirstBlock = !bFirstBlock;
// calculate the number of samples remaining until we ready for a block of audio,
// and wait that amount of time it will take to record.
int remaining = bFirstBlock ? (midPoint - writePos) : (recording.samples - writePos);
float timeRemaining = (float)remaining / (float)recordingHZ;
yield return new WaitForSeconds(timeRemaining);
yield break;
private void OnSpeechRecognize(SpeechRecognitionEvent result, Dictionary<string, object> customData)
if (result != null && result.results.Length > 0)
foreach (var res in result.results)
foreach (var alt in res.alternatives)
string text = string.Format("{0} ({1}, {2:0.00})\n", alt.transcript, res.final ? "Final" : "Interim", alt.confidence);
if (speechToTextField != null)
speechToTextField.text = text;
if (res.final)
if (characterState == SocialState.listening)
Debug.Log("WATSON | Speech to text recorded: \n" + alt.transcript);
if (characterState == SocialState.idle)
characterState = SocialState.listening;
// text to speech
private IEnumerator Synthesize(string text)
Debug.Log("WATSON CALL | Synthesize input: \n" + text);
textToSpeech.Voice = voiceType;
bool doSynthesize = textToSpeech.ToSpeech(HandleSynthesizeCallback, OnFail, text, true);
if (doSynthesize)
saying = text;
characterState = SocialState.talking;
yield return null;
void HandleSynthesizeCallback(AudioClip clip, Dictionary<string, object> customData = null)
if (Application.isPlaying && clip != null)
voiceSource.clip = clip;
// conversation
private IEnumerator Message(string text)
Debug.Log("WATSON | Conversation input: \n" + text);
MessageRequest messageRequest = new MessageRequest()
input = new Dictionary<string, object>()
{ "text", text }
context = conversationContext
bool doMessage = conversation.Message(HandleMessageCallback, OnFail, workspaceId, messageRequest);
if (doMessage)
characterState = SocialState.thinking;
if (conversationInputField != null)
conversationInputField.text = text;
yield return null;
void HandleMessageCallback(object resp, Dictionary<string, object> customData)
object _tempContext = null;
(resp as Dictionary<string, object>).TryGetValue("context", out _tempContext);
if (_tempContext != null)
conversationContext = _tempContext as Dictionary<string, object>;
string contextList = conversationContext.ToString();
Dictionary<string, object> dict = Json.Deserialize(customData["json"].ToString()) as Dictionary<string, object>;
Dictionary<string, object> output = dict["output"] as Dictionary<string, object>;
Debug.Log("JSON INFO: " + customData["json"].ToString());
// Send new/update context variables to the Watson Conversation Service
if (weather.temperatureCity != null && !conversationContext.ContainsKey("temperature"))
string currentTemperature = weather.temperatureNumber.ToString();
conversationContext.Add("temperature", currentTemperature);
else if (conversationContext.ContainsKey("temperature"))
string currentTemperature = weather.temperatureNumber.ToString();
conversationContext.Add("temperature", currentTemperature);
//Debug.Log("Current Temperature: " + currentTemperature);
// $ call context variables
var context = dict["context"] as Dictionary<string, object>;
if (context["destination_city"] != null)
destinationCity = context["destination_city"].ToString();
Debug.Log("Destination city: " + destinationCity);
if (context["departure_city"] != null)
departureCity = context["departure_city"].ToString();
List<object> text = output["text"] as List<object>;
string answer = text[0].ToString(); //Geeft alleen de eerste response terug
Debug.Log("WATSON | Conversation output: \n" + answer);
if (conversationOutputField != null)
conversationOutputField.text = answer;
fsData fsdata = null;
fsResult r = _serializer.TrySerialize(resp.GetType(), resp, out fsdata);
if (!r.Succeeded)
throw new WatsonException(r.FormattedMessages);
//convert fsdata to MessageResponse
MessageResponse messageResponse = new MessageResponse();
object obj = messageResponse;
r = _serializer.TryDeserialize(fsdata, obj.GetType(), ref obj);
if (!r.Succeeded)
throw new WatsonException(r.FormattedMessages);
if (resp != null)
//Recognize intents & entities
if (messageResponse.intents.Length > 0 && messageResponse.entities.Length > 0)
string intent = messageResponse.intents[0].intent;
string entity = messageResponse.entities[0].entity;
string literalEntity = messageResponse.entities[0].value;
if (entity == "city")
literalEntityCity = literalEntity;
if (intent == "weather" && entity == "city")
literalEntityCity = literalEntity;
if (messageResponse.intents.Length > 0)
string intent = messageResponse.intents[0].intent;
//Debug.Log("Intent: " + intent); //intent name
if (messageResponse.entities.Length > 0)
string entity = messageResponse.entities[0].entity;
//Debug.Log("Entity: " + entity); //entity name
string literalEntity = messageResponse.entities[0].value;
//Debug.Log("Entity Literal: " + literalEntity); //literal spoken entity
if (entity == "city")
literalEntityCity = literalEntity;
您被问到的问题相当复杂。我相信如果你训练一个模型,它应该使用 Watson 的工具,而不是与 Unity 相关的东西。
但是,您在 Unity 中可以做的是更正返回词。也就是说,如果您希望只获得城市名称,则可以下载所有城市的列表,假设居民超过 100.000(您可以在 Internet 上找到它),然后检查返回的单词是否在这个列表。例如:
如果不是,您可以认为它未被 Watson 检测到,因此您可以使用 Levenshtein 距离之类的东西来更正返回的单词。检查this
基本上,该算法试图找出两个词的不同之处。可以使用其他算法来检查与列表中最相似的给定单词。你可能会从here得到一些想法。或其他 one
关于c# - 如何使用 Watson Unity SDK 制作语音转文本自定义模型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50367052/
我有一个说一些短语的音板应用程序,但是现在我希望能够从男声/女声中改变出来,问题是我不知道该怎么做。任何帮助,将不胜感激。 我正在使用AVFoundation/AVAudioPlayer播放声音。 谢
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。 关闭 4 年前。
因为我想在后台录制音频,所以我使用了服务..但是我无法在服务中录制音频。 我在 Activity 中尝试了相同的代码,它对我有用。但是如何在输入语音/语音时在后台进行录音,这意味着如果有语音输入就应该
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。 关闭 6 年前。
我有一个音频流,我会从中提取单词(语音)。因此,例如使用 audio.wav 我会得到 001.wav、002.wav、003.wav 等,其中每个 XXX.wav 是一个词。 我正在寻找一个库或程序
不幸的是,我只能说四种语言,那么如果我知道文本的语言,我如何知道我必须使用哪种 OS X 语音?我在Apple的文档中找不到任何有关它的信息。至少有一张有语音/语言的 table 吗? 最佳答案 您可
有没有办法从命令行使用 MS Speech 实用程序?我可以在 Mac 上完成,但在 Windows XP 上找不到任何引用。 最佳答案 我在这个主题上的 2 美分,命令行单行: 在 Win 上使用
所以我开始了我的不和谐机器人的音乐部分。现在,正如我在上一个问题中所做的那样,这里只是音乐命令的片段:Pastebin #1 在显示 if (msg.member.voiceConnection ==
有谁知道有什么好的 API 或库可以听(语音)文本。我尝试听三种语言的(语音)文本,我想知道最好从哪里开始以及如何开始。我可以对所有三种语言使用通用语音吗?我将使用 eclipse 和 java 作为
首先,我只是一个爱好者,如果这是一个愚蠢的问题或者我太天真了,我很抱歉。 (这也意味着我买不起昂贵的库) 情况是这样的:我正在使用 C#.NET 构建一个简单的语音聊天应用程序(类似于 Ventril
我正在制作一个模块,可以生成和传输语音 IP 数据包。我知道我必须为服务类型字段设置一些值。这个值是多少? 最佳答案 该值应该是x。 关于c - 语音 ip 的服务类型字段集,我们在Stack Ove
有人能帮帮我吗?我使用 SAPI 语音文本,但我不能设置女声,这是代码,它用男声说话,但我想改变它,我想要女声 #include "stdafx.h" using namespace std; voi
我正在寻找一种方法来为一个项目在 Java 中识别预注册的语音命令,但我还没有想出一个好的方法,我研究了快速傅里叶 和处理 wave 文件 的不同方法,但我无法决定我应该如何实现它。 这个想法很简单,
我在 android 的语音识别 API 工作。 我是 Speech Recognition Api 的新手,我的要求是西类牙语语音,并从 Android 的语音识别 API 中获得西类牙语的最佳匹配
我在 Java 中使用一组名为(MaryTTS[实际上还有更多])的库来将 text to speech 转换为该目的,使用以下代码: public class TextToSpeech {
我正在尝试使用webRTC和php作为服务器端来实现单向语音传输。 查看samples ,我无法理解webRTC机制。 在我看来,流程应该是这样的: 调用者和接收者在服务器上注册 接收者监听来电 调用
我的名字是 Joey,我想知道是否有一种在 C++ 中使用语音的方法,如果有人可以给我指出引用资料和书籍,非常感谢...... 最佳答案 你应该看看 Windows Text-To-Speech AP
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this qu
我正在使用 Java 语音识别 API - Jarvis,位于 https://github.com/lkuza2/java-speech-api 但是,当我运行应用程序时,出现错误:服务器返回 HT
我们正在做一个需要讲阿拉伯语的项目,我们找到了一个开源工具,Mbrola project , 可以做到这一点。 但是,我还需要一些方法将阿拉伯语文本转换为 SAMPA 语音。那么有人可以帮助我将阿拉伯