stream - C# - 捕获 RTP 流并发送到语音识别-6ren

stream - C# - 捕获 RTP 流并发送到语音识别

转载作者：行者123 更新时间：2023-12-03 14:05:29

我要完成的工作:

在 C# 中捕获 RTP 流

将该流转发到 System.Speech.SpeechRecognitionEngine

我正在创建一个基于 Linux 的机器人，它将接受麦克风输入，将其发送给 Windows 机器，该机器将使用 Microsoft Speech Recognition 处理音频并将响应发送回机器人。机器人可能距离服务器数百英里，所以我想通过 Internet 执行此操作。

到目前为止我做了什么:

让机器人使用 FFmpeg 生成一个以 MP3 格式(其他可用格式)编码的 RTP 流(机器人在运行 Arch Linux 的 Raspberry Pi 上运行)

使用 VLC ActiveX 控件在客户端计算机上捕获的流

发现 SpeechRecognitionEngine 有可用的方法:

识别器.SetInputToWaveStream()

识别器.SetInputToAudioStream()

识别器.SetInputToDefaultAudioDevice()

看着使用 JACK 将应用程序的输出发送到 line-in，但完全被它弄糊涂了。

我需要帮助:

我坚持如何将流从 VLC 实际发送到 SpeechRecognitionEngine。 VLC 根本不公开流。有没有一种方法可以捕获一个流并将该流对象传递给 SpeechRecognitionEngine？或者 RTP 不是这里的解决方案？

在此先感谢您的帮助。

最佳答案

经过一番努力，终于得到了Microsoft.SpeechRecognitionEngine接受 WAVE 音频流。这是过程:

在 Pi 上，我正在运行 ffmpeg。我使用此命令流式传输音频

ffmpeg -ac 1 -f alsa -i hw:1,0 -ar 16000 -acodec pcm_s16le -f rtp rtp://XXX.XXX.XXX.XXX:1234

在服务器端，我创建了一个 UDPClient并在端口 1234 上监听。我在单独的线程上接收数据包。首先，我剥离 RTP header ( header format explained here) 并将有效负载写入一个特殊的流。我不得不使用 SpeechStreamer类(class) described in Sean's response为了使 SpeechRecognitionEngine 工作。它不适用于标准 Memory Stream .

在语音识别方面我唯一要做的就是将输入设置为音频流而不是默认音频设备。

recognizer.SetInputToAudioStream( rtpClient.AudioStream,
    new SpeechAudioFormatInfo(WAVFile.SAMPLE_RATE, AudioBitsPerSample.Sixteen, AudioChannel.Mono));

我还没有对它进行广泛的测试(即让它播放几天，看看它是否仍然有效)，但我可以将音频样本保存在 SpeechRecognized 中。听起来很棒。我正在使用 16 KHz 的采样率。我可能会将其降低到 8 KHz 以减少数据传输量，但一旦出现问题我会担心。

我还应该提到，响应速度非常快。我可以说一个完整的句子并在不到一秒钟的时间内得到回应。 RTP 连接似乎给进程增加了很少的开销。我将不得不尝试一个基准测试并将其与仅使用 MIC 输入进行比较。

编辑:这是我的 RTPClient 类。

    /// <summary>
    /// Connects to an RTP stream and listens for data
    /// </summary>
    public class RTPClient
    {
        private const int AUDIO_BUFFER_SIZE = 65536;

        private UdpClient client;
        private IPEndPoint endPoint;
        private SpeechStreamer audioStream;
        private bool writeHeaderToConsole = false;
        private bool listening = false;
        private int port;
        private Thread listenerThread; 

        /// <summary>
        /// Returns a reference to the audio stream
        /// </summary>
        public SpeechStreamer AudioStream
        {
            get { return audioStream; }
        }
        /// <summary>
        /// Gets whether the client is listening for packets
        /// </summary>
        public bool Listening
        {
            get { return listening; }
        }
        /// <summary>
        /// Gets the port the RTP client is listening on
        /// </summary>
        public int Port
        {
            get { return port; }
        }

        /// <summary>
        /// RTP Client for receiving an RTP stream containing a WAVE audio stream
        /// </summary>
        /// <param name="port">The port to listen on</param>
        public RTPClient(int port)
        {
            Console.WriteLine(" [RTPClient] Loading...");

            this.port = port;

            // Initialize the audio stream that will hold the data
            audioStream = new SpeechStreamer(AUDIO_BUFFER_SIZE);

            Console.WriteLine(" Done");
        }

        /// <summary>
        /// Creates a connection to the RTP stream
        /// </summary>
        public void StartClient()
        {
            // Create new UDP client. The IP end point tells us which IP is sending the data
            client = new UdpClient(port);
            endPoint = new IPEndPoint(IPAddress.Any, port);

            listening = true;
            listenerThread = new Thread(ReceiveCallback);
            listenerThread.Start();

            Console.WriteLine(" [RTPClient] Listening for packets on port " + port + "...");
        }

        /// <summary>
        /// Tells the UDP client to stop listening for packets.
        /// </summary>
        public void StopClient()
        {
            // Set the boolean to false to stop the asynchronous packet receiving
            listening = false;
            Console.WriteLine(" [RTPClient] Stopped listening on port " + port);
        }

        /// <summary>
        /// Handles the receiving of UDP packets from the RTP stream
        /// </summary>
        /// <param name="ar">Contains packet data</param>
        private void ReceiveCallback()
        {
            // Begin looking for the next packet
            while (listening)
            {
                // Receive packet
                byte[] packet = client.Receive(ref endPoint);

                // Decode the header of the packet
                int version = GetRTPHeaderValue(packet, 0, 1);
                int padding = GetRTPHeaderValue(packet, 2, 2);
                int extension = GetRTPHeaderValue(packet, 3, 3);
                int csrcCount = GetRTPHeaderValue(packet, 4, 7);
                int marker = GetRTPHeaderValue(packet, 8, 8);
                int payloadType = GetRTPHeaderValue(packet, 9, 15);
                int sequenceNum = GetRTPHeaderValue(packet, 16, 31);
                int timestamp = GetRTPHeaderValue(packet, 32, 63);
                int ssrcId = GetRTPHeaderValue(packet, 64, 95);

                if (writeHeaderToConsole)
                {
                    Console.WriteLine("{0} {1} {2} {3} {4} {5} {6} {7} {8}",
                        version,
                        padding,
                        extension,
                        csrcCount,
                        marker,
                        payloadType,
                        sequenceNum,
                        timestamp,
                        ssrcId);
                }

                // Write the packet to the audio stream
                audioStream.Write(packet, 12, packet.Length - 12);
            }
        }

        /// <summary>
        /// Grabs a value from the RTP header in Big-Endian format
        /// </summary>
        /// <param name="packet">The RTP packet</param>
        /// <param name="startBit">Start bit of the data value</param>
        /// <param name="endBit">End bit of the data value</param>
        /// <returns>The value</returns>
        private int GetRTPHeaderValue(byte[] packet, int startBit, int endBit)
        {
            int result = 0;

            // Number of bits in value
            int length = endBit - startBit + 1;

            // Values in RTP header are big endian, so need to do these conversions
            for (int i = startBit; i <= endBit; i++)
            {
                int byteIndex = i / 8;
                int bitShift = 7 - (i % 8);
                result += ((packet[byteIndex] >> bitShift) & 1) * (int)Math.Pow(2, length - i + startBit - 1);
            }
            return result;
        }
    }

关于stream - C# - 捕获 RTP 流并发送到语音识别，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15886888/

文章推荐： Django Celery Beat - 如何使用 DatabaseScheduler 传递参数

文章推荐： qt - 在 Qt Creator 中切换 .ui 和 .cpp

文章推荐： Solr:将 OR 查询中的匹配数过滤到多值字段

ios - 更改iOS应用中使用按钮播放的“语音”
我有一个说一些短语的音板应用程序，但是现在我希望能够从男声/女声中改变出来，问题是我不知道该怎么做。任何帮助，将不胜感激。我正在使用AVFoundation/AVAudioPlayer播放声音。谢
audio - 语音/音乐分类
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 4 年前。
android - 如何在android中连续录制后台音频/语音？
因为我想在后台录制音频，所以我使用了服务..但是我无法在服务中录制音频。我在 Activity 中尝试了相同的代码，它对我有用。但是如何在输入语音/语音时在后台进行录音，这意味着如果有语音输入就应该
c# - 语音/语音转文本
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 6 年前。
audio - 用于从音频流中提取单词(语音)的库？
我有一个音频流，我会从中提取单词(语音)。因此，例如使用 audio.wav 我会得到 001.wav、002.wav、003.wav 等，其中每个 XXX.wav 是一个词。我正在寻找一个库或程序
macos - NSSpeechSynthesizer 语音/语言关系
不幸的是，我只能说四种语言，那么如果我知道文本的语言，我如何知道我必须使用哪种 OS X 语音？我在Apple的文档中找不到任何有关它的信息。至少有一张有语音/语言的 table 吗？最佳答案您可
cmd - 来自命令行的 ms 语音
有没有办法从命令行使用 MS Speech 实用程序？我可以在 Mac 上完成，但在 Windows XP 上找不到任何引用。最佳答案我在这个主题上的 2 美分，命令行单行: 在 Win 上使用
javascript - 语音 channel 不设防
所以我开始了我的不和谐机器人的音乐部分。现在，正如我在上一个问题中所做的那样，这里只是音乐命令的片段:Pastebin #1 在显示 if (msg.member.voiceConnection ==
java - 如何在java中听(语音)文本
有谁知道有什么好的 API 或库可以听(语音)文本。我尝试听三种语言的(语音)文本，我想知道最好从哪里开始以及如何开始。我可以对所有三种语言使用通用语音吗？我将使用 eclipse 和 java 作为
c# - 语音 session ——如何让更多人参与进来？
首先，我只是一个爱好者，如果这是一个愚蠢的问题或者我太天真了，我很抱歉。 (这也意味着我买不起昂贵的库) 情况是这样的:我正在使用 C#.NET 构建一个简单的语音聊天应用程序(类似于 Ventril
c - 语音 ip 的服务类型字段集
我正在制作一个模块，可以生成和传输语音 IP 数据包。我知道我必须为服务类型字段设置一些值。这个值是多少？最佳答案该值应该是x。关于c - 语音 ip 的服务类型字段集，我们在Stack Ove
c++ - 文字转语音 SAPI 语音
有人能帮帮我吗？我使用 SAPI 语音文本，但我不能设置女声，这是代码，它用男声说话，但我想改变它，我想要女声 #include "stdafx.h" using namespace std; voi
java - 基于命令(语音)识别的项目
我正在寻找一种方法来为一个项目在 Java 中识别预注册的语音命令，但我还没有想出一个好的方法，我研究了快速傅里叶和处理 wave 文件的不同方法，但我无法决定我应该如何实现它。这个想法很简单，
android - 西类牙语语音(语音)识别
我在 android 的语音识别 API 工作。我是 Speech Recognition Api 的新手，我的要求是西类牙语语音，并从 Android 的语音识别 API 中获得西类牙语的最佳匹配
Java - 将效果应用于 MaryTTS 语音
我在 Java 中使用一组名为(MaryTTS[实际上还有更多])的库来将 text to speech 转换为该目的，使用以下代码: public class TextToSpeech {
javascript - webRTC 音频/语音
我正在尝试使用webRTC和php作为服务器端来实现单向语音传输。查看samples ，我无法理解webRTC机制。在我看来，流程应该是这样的: 调用者和接收者在服务器上注册接收者监听来电调用
c++ - Windows 语音 C++
我的名字是 Joey，我想知道是否有一种在 C++ 中使用语音的方法，如果有人可以给我指出引用资料和书籍，非常感谢...... 最佳答案你应该看看 Windows Text-To-Speech AP
c++ - 从零开始构建 IP 语音
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this qu
Java 语音 API 空响应
我正在使用 Java 语音识别 API - Jarvis，位于 https://github.com/lkuza2/java-speech-api 但是，当我运行应用程序时，出现错误:服务器返回 HT
c# - 如何将阿拉伯文本转换为 SAMPA 语音？
我们正在做一个需要讲阿拉伯语的项目，我们找到了一个开源工具，Mbrola project , 可以做到这一点。但是，我还需要一些方法将阿拉伯语文本转换为 SAMPA 语音。那么有人可以帮助我将阿拉伯

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

stream - C# - 捕获 RTP 流并发送到语音识别