go - 我应该如何在 golang 中编码用于 Google Voice 识别的音频流？-6ren

go - 我应该如何在 golang 中编码用于 Google Voice 识别的音频流？

转载作者：行者123 更新时间：2023-12-01 20:23:03

我正在构建一个使用 Opus 流的 discord 机器人。我尝试了各种方法，例如直接发送 Opus 数据包，将 OPUS 流解码为 PCM 并将其编码为字节数组，以及将 PCM 直接转换为字节数组。在所有情况下，我得到:

无法识别:代码:11 消息:“音频数据传输速度太慢。请大约实时传输音频数据。”

我在 20 毫秒帧时尝试了 8kHz-48kHz 频率。我还尝试使用最大比特率对转换后的 PCM 进行编码。我已经成功运行了示例代码，所以我这边没有连接问题。我应该在哪里寻找解决方案？

package main

import (
    "fmt"
    //"io"
    "log"
    "os"
    "flag"

    speech "cloud.google.com/go/speech/apiv1"
    "golang.org/x/net/context"
    speechpb "google.golang.org/genproto/googleapis/cloud/speech/v1"

    "github.com/bwmarrin/discordgo"
    "layeh.com/gopus"
)

// OnError gets called by dgvoice when an error is encountered.
// By default logs to STDERR
var OnError = func(str string, err error) {
    prefix := "dgVoice: " + str

    if err != nil {
        os.Stderr.WriteString(prefix + ": " + err.Error())
    } else {
        os.Stderr.WriteString(prefix)
    }
}

var stream speechpb.Speech_StreamingRecognizeClient

func main() {
    var (
        Token     = flag.String("t", "", "Discord bot token.")
//      Email     = flag.String("e", "", "Discord account email.")
//      Password  = flag.String("p", "", "Discord account password.")
        GuildID   = flag.String("g", "", "Guild ID")
        ChannelID = flag.String("c", "", "Channel ID")
    )
    flag.Parse()


    fmt.Println("Connecting to Discord...")
    // Connect to Discord
    discord, err := discordgo.New(*Token)
    if err != nil {
        fmt.Println(err)
        return
    }

    fmt.Println("Opening Socket...")
    // Open Websocket
    err = discord.Open()
    if err != nil {
        fmt.Println(err)
        return
    }

    fmt.Println("Joining Channel...")
    // Connect to voice channel.
    // NOTE: Setting mute to false, deaf to true.
    dgv, err := discord.ChannelVoiceJoin(*GuildID, *ChannelID, false, false)
    if err != nil {
        fmt.Println(err)
        return
    }

    fmt.Println("Connecting to Google Speech Recognition API...")
    ctx := context.Background()

    // [START speech_streaming_mic_recognize]
    client, err := speech.NewClient(ctx)
    if err != nil {
        log.Fatal(err)
    }
    stream, err = client.StreamingRecognize(ctx)
    if err != nil {
        log.Fatal(err)
    }
    // Send the initial configuration message.
    if err := stream.Send(&speechpb.StreamingRecognizeRequest{
        StreamingRequest: &speechpb.StreamingRecognizeRequest_StreamingConfig{
            StreamingConfig: &speechpb.StreamingRecognitionConfig{
                Config: &speechpb.RecognitionConfig{
                    Encoding:        speechpb.RecognitionConfig_LINEAR16,
                    SampleRateHertz: 16000,
                    LanguageCode:    "en-US",
                },
                //InterimResults: true,
                SingleUtterance: true,
            },

        },
    }); err != nil {
        log.Fatal(err)
    }


    recv := make(chan *discordgo.Packet, 2)
    go Receive(dgv, recv)

    send := make(chan []int16, 2)
    go Send(dgv, send)

    // dgv.Speaking(true)
 //     defer dgv.Speaking(false)

    go func() {
        for {

            p, ok := <-recv
            if !ok {
                fmt.Println("Not OK")
                return
            }

            send <- p.PCM
        }

    } ()

    for {
        resp, err := stream.Recv()
        //fmt.Printf("%+v\n",resp)
        if err != nil {
            log.Fatalf("Cannot stream results: %v", err)
        }
        if err := resp.Error; err != nil {
            log.Fatalf("Could not recognize: %v", err)
        }
        for _, result := range resp.Results {
            fmt.Printf("Result: %+v\n", result)
        }
    }

    // Close connections
    dgv.Close()
    discord.Close()

    return
}

func Receive(v *discordgo.VoiceConnection, c chan *discordgo.Packet) {
    var speakers    map[uint32]*gopus.Decoder
    if c == nil {
        return
    }

    var err error
    for {
        p, ok := <-v.OpusRecv
        if !ok {
            return
        }

        if speakers == nil {
            speakers = make(map[uint32]*gopus.Decoder)
        }

        _, ok = speakers[p.SSRC]
        if !ok {
            speakers[p.SSRC], err = gopus.NewDecoder(16000, 1)
            if err != nil {
                OnError("error creating opus decoder", err)
                continue
            }
        }
        p.PCM, err = speakers[p.SSRC].Decode(p.Opus, 320, false)
        if err != nil {
            OnError("Error decoding opus data", err)
            continue
        }

        // try encoding pcm frame with Opus

        c <- p
    }
}

func Send(v *discordgo.VoiceConnection,  pcm <- chan []int16) {
    for {

        // read pcm from chan, exit if channel is closed.
        recv, ok := <-pcm
        if !ok {
            OnError("PCM Channel closed", nil)
            return
        }


        buf := make([]byte,2*len(recv))

        for i := 0; i < len(recv); i+=2 {
            var h, l uint8 = uint8(i>>8), uint8(i&0xff)
            buf[i] = h
            buf[i+1] = l
        }


        stream.Send(&speechpb.StreamingRecognizeRequest{
            StreamingRequest: &speechpb.StreamingRecognizeRequest_AudioContent{
                AudioContent: buf,
            },
        });
    }

最佳答案

Google Speech-to-Text 文档有 a fully working example of streaming speech recognition in Go .

“音频数据传输速度太慢” 由服务器在未实时接收音频时发送。在这种情况下，上面的代码包含一个错误，导致在发送循环的每次迭代中只发送半个 PCM 帧:

        for i := 0; i < len(recv); i+=2 {
            var h, l uint8 = uint8(i>>8), uint8(i&0xff)
            buf[i] = h
            buf[i+1] = l
        }

recv 是 int16 值的一部分，因此它应该一次迭代一个值，而不是 i+=2，它会跳过所有其他值。 buf 是一个 uint8 slice ，因此它的索引是有效的。

关于go - 我应该如何在 golang 中编码用于 Google Voice 识别的音频流？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46086413/

文章推荐： usb - 为我的 USB MIDI 设备制作我自己的应用程序

文章推荐： sql - 需要将递归 CTE 查询转换为索引友好查询

文章推荐： go - 在golang中动态解码yaml

文章推荐： rest - 如何访问Istio API？

elasticsearch - 应该+ ElasticSearch中的distance_function
我正在尝试在Elasticsearch中返回的值中考虑地理位置的接近性。我希望近距离比某些字段(例如legal_name)重要，但比其他字段重要。从文档看来，当前的方法是使用distance_fea
php - 在Elasticsearch中处理必须/应该
我是Elasticsearch的初学者，今天在进行“多与或”查询时遇到问题。我有一个SQL查询，需要在Elastic中进行转换: WHERE host_id = 999 AND psh_pid =
c++ - 应该/可以在函数中通过引用传递智能指针
智能指针应该/可以在函数中通过引用传递吗？即: void foo(const std::weak_ptr& x) 最佳答案当然你可以通过const&传递一个智能指针。这样做也是有原因的: 如果接
elasticsearch - '应该' bool 查询获取不需要的结果
我想执行与以下MYSQL查询等效的查询 SELECT http_user, http_req_method, dst dst_port count(*) as total FROM my_table
Elasticsearch:应该 + minimum_should_match 与必须
我用这两个查询进行测试用must查询 { "size": 200, "from": 0, "query": { "bool": { "must": [ { "mat
android - 我如何(应该)将处理程序添加到服务中的线程
我仍在研究 Pro Android 2 的简短服务示例(第 304 页)同样，服务示例由两个类组成:如下所示的 BackgroundService.java 和如下所示的 MainActivity.j
html - 当引入水平滚动时，*应该*如何呈现此内容？
给定标记 like this : header really_wide_table..........................................
javascript - ChaiJS 应该 - 测试空字符串
根据 shouldJS 上的文档网站我应该能够做到这一点: ''.should.be.empty(); ChaiJS网站没有使用 should 语法的示例，但它列出了 expect 并且上面的示例似乎
c - 必须(应该)避免使用标准库中的哪些函数？
我在 Stack Overflow 上读到一些 C 函数是“过时的”或“应该避免”。你能给我一些这种功能的例子以及原因吗？这些功能有哪些替代方案？我们可以安全地使用它们 - 有什么好的做法吗？最
c++11 - 省略号可以/应该/将适用于元组吗？
在 C++11 中，可变参数模板允许使用任意数量的参数和省略号运算符 ... 调用函数。允许该可变参数函数对每个参数做一些事情，即使每个参数的事情不是一样的: template void dummy(
ruby-on-rails - 应该:测试validates_presence_of:on =>:update
我在我从事的项目之一上将Shoulda与Test::Unit结合使用。我遇到的问题是我最近更改了此设置: class MyModel :update end 以前，我的(通过)测试看起来像这样: c
chai - 如何在 chai 中做一个 "or"应该
我该如何做 or使用 chai.should 进行测试? 例如就像是 total.should.equal(4).or.equal(5) 或者 total.should.equal.any(4,5)
Mercurial - .hgtags 应该 merge 吗？
如果您要将存储库 B 中的更改 merge 到存储库 A 中，是否应该 merge .hgtags 中的更改？存储库 B 可能具有 A 中没有的标签 1.01、1.02、1.03。为什么要将这些 m
elasticsearch - 带有Must(and)应该(或)不产生期望结果的Elasticsearch查询
我正在尝试执行X AND(y OR z)的查询我需要获得该代理为上市代理或卖方的所有已售属性(property)。我只用 bool(boolean) 值就可以得到9324个结果。当我添加 bool
javascript - Mocha/应该 'undefined is not a function'
我要离开 this教程，尝试使用 Mocha、Supertest 和 Should.js 进行测试。我有以下基本测试来通过 PUT 创建用户接受 header 中数据的端点。 describe('U
java - JUnit:可以(应该)这样做吗？
我正在尝试为 Web 应用程序编写一些 UI 测试，但有一些复杂的问题希望您能帮助我解决。首先，该应用程序有两种模式。其中一种模式是“训练”，另一种是“现场”。在实时模式下，数据直接从我们的数据库中
ruby-on-rails - 应该 helper 不工作
我有一个规范: require 'spec_helper' # hmm... I need to include it here because if I include it inside desc
ruby-on-rails - 行动有效，但测试无效(应该)
我正在尝试用这个测试我在 Rails 中的更新操作: context "on PUT to :update" do setup do @countdown = Factory(:count
html - 应该 &'s be escaped in onclick="...”？
我还没有找到合适的答案: onclick="..." 中是否应该转义 &(& 符号)？ (或者就此而言，在每个 HTML 属性中？) 我已经尝试在 jsFiddle 和 W3C 的验证器上运行转义和非
java - 应该 move 球的程序，但不执行方法运行
import java.applet.*; import java.awt.*; import java.awt.event.*; public class Main extends Applet i

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

go - 我应该如何在 golang 中编码用于 Google Voice 识别的音频流？