xml - GoLang : Decompress bz2 in on goroutine, 在其他协程中消费-6ren

xml - GoLang : Decompress bz2 in on goroutine, 在其他协程中消费

转载作者：IT王子更新时间：2023-10-29 01:10:02

29

4

我是一名刚毕业的 SWE，正在学习 Go(并且喜欢它)。

我正在为维基百科转储文件构建一个解析器——基本上是一个巨大的 bzip2 压缩 XML 文件(~50GB 未压缩)。

我想同时做流式解压和解析，听起来很简单。对于减压，我这样做:

inputFilePath := flag.Arg(0) 输入阅读器 := bzip2.NewReader(输入文件)

然后将读取器传递给 XML 解析器:

解码器 := xml.NewDecoder(inputFile)

但是，由于解压缩和解析都是昂贵的操作，我想让它们在单独的 Go 例程上运行以利用额外的核心。我将如何在 Go 中执行此操作？

我唯一能想到的是将文件包装在一个 chan []byte 中，并实现 io.Reader 接口(interface)，但我认为可能有一种内置的方式(和更清晰的)来实现它。

有没有人做过这样的事情？

谢谢!曼纽尔

最佳答案

您可以使用 io.Pipe , 然后使用 io.Copy将解压后的数据推送到管道中，并在另一个 goroutine 中读取:

package main

import (
    "bytes"
    "encoding/json"
    "fmt"
    "io"
    "sync"
)

func main() {

    rawJson := []byte(`{
            "Foo": {
                "Bar": "Baz"
            }
        }`)

    bzip2Reader := bytes.NewReader(rawJson) // this stands in for the bzip2.NewReader

    var wg sync.WaitGroup
    wg.Add(2)

    r, w := io.Pipe()

    go func() {
        // write everything into the pipe. Decompression happens in this goroutine.
        io.Copy(w, bzip2Reader)
        w.Close()
        wg.Done()
    }()

    decoder := json.NewDecoder(r)

    go func() {
        for {
            t, err := decoder.Token()
            if err != nil {
                break
            }
            fmt.Println(t)
        }
        wg.Done()
    }()

    wg.Wait()
}

http://play.golang.org/p/fXLnfnaWYA

关于xml - GoLang : Decompress bz2 in on goroutine, 在其他协程中消费，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36228655/

29

4

0

文章推荐： go - Protocol Buffer 使用枚举

文章推荐： git - GIT 是否支持推送到 ftp 服务器？

文章推荐： c++ - 处理 UTF-8 字符串

excel - 消费/订阅类模块的自定义事件
我想使用我编写的类模块的事件。类模块如下所示 ''CError64Row Public Event ErrorClicked(ByVal row As Integer, ByVal column As
c# - 消费/包装大型网络服务的架构技巧
我正在寻找实现智能架构的良好实践，以及处理针对具有许多不同 wdsl web 服务的系统的集成的方法。我已经有 2 年的爱好使用 C# 进行开发了~，因此我并不总是使用正确的术语，但我会尝试描述我正
Azure 消费 API 非常慢
目前，我正在为我的程序使用 Azure Consumer API。但它非常慢，几乎需要8秒才能给出响应。我现在应该怎么做？这是我正在使用的 azure API.. https://management
Mule 消费 JMS 主题消息
我的流程是: AcitveMQ 控制台在主题部分下显示了一个使用者，但是一旦
rust - 消费 self 并返回它对性能有何影响？
我一直在阅读类似 Why does a function that accepts a Box complain of a value being moved when a function that
php - rabbitmq AMQP::消费()
AMQP 函数 consume() 是一个带有回调的阻塞函数，是否可以为 consume() 函数设置超时，以便在特定时间后不再阻塞并且代码执行完成？最佳答案是的，方法如下: $amqp = ne
PHP 消费 JSON 流
我有一个客户端/服务器应用程序，其中客户端以 JSON 形式将对象发送到运行 PHP 脚本的服务器，然后将此数据放入数据库。问题是解码是用 json_decode 函数完成的，它似乎适用于字符串而不
java - 生产者 - 消费；消费者如何停止？
所以我已经模拟了我的生产者消费者问题并且我有下面的代码。我的问题是:如果消费者一直处于 while(true) 状态，他如何停止。在下面的代码中，我添加了 i
C++ 消费 delphi DLL
我无法使用在delphi 中开发的dll 的功能。我在类型转换方面遇到了一些困难。这是我要调用 DLL 的函数: function rData(ID: Cardinal; queue: WideSt
unity3d - Unity 中的 Kafka 消费
我想使用 Unity3D 可视化 Kafka 流。在 Unity 中访问数据流的最佳方式是什么？我已经用 Node 和 C# 编写了基本使用者，但我不确定如何将它们合并到 Unity 中。任何帮助表
rss - 消费 Atom 提要 : how does it work?
如果标题太笼统，我很抱歉，但我已经浏览了一个小时的互联网，但找不到任何架构解释。我对 RSS 和 Atom 协议(protocol)都是全新的，据我到目前为止所了解的是: 服务器发布文档客户端订阅此
soap - 使用 Guzzle 消费 SOAP
我很喜欢我刚刚发现的 Guzzle 框架。我正在使用它使用不同的响应结构跨多个 API 聚合数据。它可以使用 JSON 和 XML 找到，但我需要使用的服务之一使用 SOAP。是否有使用 Guzzle
.net - Azure.管理.消费.模型
有没有一种方法可以像访问 Microsoft.Azure.Management.Fluent 一样访问 Azure.Management.Conclusion.Models？当我执行以下代码时，我看
javafx-2 - JavaFx、事件拦截/消费
我有这个部分场景图树: CustomPane (with onMouseClicked Handler) → ChildNode (with onMousePressed Handler) 当我在
javascript - Vue.js 消费 json
我的问题是这个 json。 http://dev-rexolution.pantheonsite.io/api/noticias 我只需要使用 vuejs 2 使用数组的第一个元素才能显示它，使用我工
machine-learning - 消费 CNTK 模型
我是 ML 新手，一直在研究 CNTK 教程。我已经成功训练了几个模型。我完成了迁移学习教程 ( https://github.com/Microsoft/CNTK/blob/v2.1/Tutori
java - 如何在RabbitMq上进行 "topic-like"消费？
我是 RabbitMq 和 AMQP 的新手，但我对 ActiveMQ 和 JMS 有一些经验。我尝试在主题(JMS 中的主题之类的主题)中发布一条消息，并从多个监听器中使用此消息。比如我发布一条消息
java - 在 Jersey 消费 OffsetDateTime
我正在尝试让我的服务器解析以下 JSON: {"hardwareId":1,"registerTime":"2017-02-14T03:42:11.482Z","sensorId":1,"temper
javascript - 使用 jQuery 消费 JSON
我正在开发一个从外部 url 使用 json 的网站，我试过了但是我得到了一个错误 XMLHttpRequest 无法加载 http://reuniyo.com/tst/json.php。 Acces
java - 延迟 Kafka Streams 消费
我正在尝试使用Kafka Streams(即不是简单的Kafka Consumer)从重试主题中读取之前无法处理的事件。我希望从重试主题中进行消费，如果处理仍然失败(例如，如果外部系统已关闭)，我希望

首页

博学

6Ren·AI

商城

xml - GoLang : Decompress bz2 in on goroutine, 在其他协程中消费