gpt4 book ai didi

ruby - Sax 从 S3 解析一个大文件

转载 作者:数据小太阳 更新时间:2023-10-29 08:44:33 24 4
gpt4 key购买 nike

我在 s3 (50gb) 上有一个非常大的 xml 文件。我想将此文件流式传输到 sax xml 解析器,以便使用 ruby​​ 进行进一步处理。在我无法在本地下载整个文件但只能通过 s3 通过 tcp 流式传输它的环境中,我将如何做到这一点?

我正在考虑使用 https://github.com/ohler55/ox用于 self 解析,以及https://github.com/aws/aws-sdk-ruby用于访问 S3 上的文件。我只是不确定如何使用流式传输方法连接各个部分?

最佳答案

最简单的方法是使用mcmc 实现的是cat 命令,使用起来更简单。

例如下图。此处 cat 流式传输您的对象并将 cat 的输出通过管道传输到从标准输入读取的 XML 解析器。

$ mc cat s3.amazonaws.com/<yourbucket>/<yourobject> | <your_xml_parser> 

这样您就可以避免在本地下载文件。

此外,mc 提供了更多工具来处理与 Amazon S3 兼容的云存储和文件系统。它具有断点续传、进度条、并行复制等功能。 mc 是用 Golang 编写的,并在 Apache 许可证 v2 下发布。 mc 在 OS X、Linux 和 Windows 上受支持。

关于ruby - Sax 从 S3 解析一个大文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33927986/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com