java - 如何访问谷歌云数据流中压缩源的每个条目？并获取每个子文件的Byte[]-6ren

java - 如何访问谷歌云数据流中压缩源的每个条目？并获取每个子文件的Byte[]

转载作者：行者123 更新时间：2023-11-30 07:13:22

24

4

我有一个压缩文件，它是由谷歌存储上的多个文本文件组成的 gzip 文件。我需要访问每个子文件并执行一些操作，例如正则表达式。我可以像这样在本地计算机上执行相同的操作。

pubic static void untarFile( String filepath ) throw IOException {
  try {
    FileInputStream fin = new FileInputStream(filepath);
    BufferedInputStream in = new BufferedInputStream(fin);
    GzipCompressorInputStream gzIn = new GzipCompressorInputStream(in);
    TarArchiveInputStream tarInput = new TarArchiveInputStream(gzIn);
    TarArchiveEntry entry = null;
    while ((entry = (TarArchiveEntry) tarInput.getNextTarEntry() ) != null) {
    byte[] fileContent = new byte (int)entry.getSize() ];
    tarInput.read(fileContent, 0, fileContent.length);
    }
  }
}

因此，我可以对 fileContent(一个 byte[ ])进行一些其他操作。所以我用了CompressedSource在google cloud dataflow上并引用其test code看来我只能从文件中获取每个字节，而不是子文件的整个 byet[]，所以我想知道是否有任何解决方案可以在谷歌云数据流上执行此操作。

最佳答案

TextIO 不直接支持此功能，但您可以创建 FileBasedSource 的新子类去做这个。您需要重写 isSplittable() 以始终返回 false，然后让 readNextRecord() 读取整个文件。

关于java - 如何访问谷歌云数据流中压缩源的每个条目？并获取每个子文件的Byte[]，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38809620/

24

4

0

文章推荐： java - 实现Web服务的接口(interface)

文章推荐： java - 如何对 JCheckBox 和 JTextField 使用单个 ActionListener

文章推荐： java - 在 ubuntu 16.04 上使用 PPA 下载 Oracle Java 8

cloud - 云、网格和集群有什么区别？
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit
Python，云 - 具有调度功能的在线网页抓取工具
我计划使用 python 开发一个 Web/云应用程序，它执行以下操作， 1.上传Perl/Python抓取脚本并执行。 2. 上传脚本以按计划运行。 3. 使用不同的输入参数运行同一脚本的多个实例。
Android 云 - 备份管理器与驱动器
我正在开发一个应用程序，我想实现一个功能，可以在相同的用户设备之间共享，比方说，收藏夹、书签等。所以，我想实现类似 iCloud 的东西。我想到了 2 个可能的想法:Backup Manager 和
Java 云 API
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
r - 创建词组而不是R中的单个词的 "word"云
我正在尝试从一系列短语中使一个单词云成为一个词云，而不是从单个单词中重复很多短语。我的数据看起来像这样，数据框的一列是短语列表。 df$names <- c("John", "John", "Jose
azure - 预配和配置 - Azure 云
对于配置AWS服务(EC2/R53/VPC/S3/..)，Terraform等技术在执行回滚、错误处理等方面的方法不可靠。 AWS CloudFormation 模板解决了这些问题。 CloudFor
Azure 云 shell 错误
我无法使用我的 Azure 帐户执行任何操作，例如创建服务器或数据库或任何操作。看起来这一切都围绕着我无法创建的资源组>我收到此错误: 这特别困难，因为我什至无法使用云外壳，因为我得到了这个:请求 C
websocket - 云/托管推送系统可以使用socket.io作为客户端吗？
是否有在客户端使用 socket.io 的云/托管推送系统？据我所知，没有一个系统使用 socket.io AFAIK: http://beaconpush.com/ http://pusher.co
RStudio 本地 + R 云
有没有办法在我的计算机上本地运行 RStudio，但使用运行 R 作为引擎的远程计算机而不是本地 R 安装？需要明确的是，我知道可以将 RStudio 服务器与 Web GUI 一起使用，但我问的是
java - 如何将视频直播发送到 azure 云？
我正在寻找在这种情况下可以使用的合适服务: 在视频模式下打开相机并将其流式传输到 azure 云。并从另一方聆听(也包括客户)。我读到了有关 Azure 媒体服务的信息。但根据this我知道客户
java - 将应用程序部署到 Google 云
这个问题已经有答案了: 已关闭12 年前。 Possible Duplicate: Google App Engine, getting started 如何将 Java 应用程序部署到 Google
java - 控制台应用程序的替代(云)部署选项
我有一个用 Java 7 编写的相当大的控制台应用程序，它管理大量的订单处理。该应用程序使用大量订单 Web 服务、与数据库交互并将数据插入 ERP 系统。该应用程序的要求没有指定用户交互，因此在项
azure - 是什么让项目适合 Azure/云？
我已经阅读过有关 Windows Azure 的内容，但为了深入了解这项技术，我(显然)需要使用它。我有一个小型 ASP.NET 网站，流量很少，我认为在 Azure 上托管该网站会节省我的钱。除此之
android - 将数据保存到 Parse 云
我的 Activity 中有 3 个编辑文本(姓名、手机号码、职业)和一个按钮(保存)。每次用户单击按钮时，我都想将这三个数据保存到 Parse-cloud。然后新 Activity 在 imagev
json - 传感器数据未上传至 artik 云
我正在尝试通过node.js 将传感器数据发送到artik cloud。 (使用网络套接字和串行端口)。但它发送空。有人知道原因吗？我刚刚复制了教程中的代码，因此没有语法错误。 var webSock
Docker 集线器与 Docker 云
我对 docker hub 和 docker cloud 有一点困惑。我有需要安装在客户端服务器中并运行容器的 docker 镜像。我相信这可以使用 docker hub 来完成，它允许在我的私有(p
这个华夏文明发源地，不仅有矿，还有“云”
晋城，华夏文化发祥地之一。两万年前留下高都遗址、塔水河、下川等人类遗址，女娲补天、愚公移山等神话传说，如今在云上有了崭新的魅力。 9月3日，阿里云数字中国行•晋城峰会期间，晋城市人民政府公布了
airflow - 云 Composer Airflow 插件使用
我刚开始使用 Airflow 插件，有点困惑。我在 GCP (composer-1.13.4-airflow-1.10.12) 上使用 Cloud Composer 作为托管服务运行它我按照文档编
分布式环境(云)中的 PHP XDebug
据我所知，PHP 分析工具 XDebug 将其结果保存到文件中。然而，当应用程序运行在云分布式环境中时，处理此类文件是很困难的。处理这种情况的最佳做法是什么？ XDebug 中是否有任何方法(最好是可
Azure 云 Web 服务、存储选项
我们正在将 PHP 网站迁移到 Azure 云 Web 服务(Web 角色)。目前，该网站通过驱动器盘符访问将用户提交的图像文件保存到文件系统。然后通过 URL 提供这些图像，例如content.e

首页

博学

6Ren·AI

商城

java - 如何访问谷歌云数据流中压缩源的每个条目？并获取每个子文件的Byte[]