gpt4 book ai didi

java - apache Spark Streaming textFileStream - 读取 gzip 文件

转载 作者:行者123 更新时间:2023-11-30 08:13:16 26 4
gpt4 key购买 nike

我正在使用 Spark 流处理放置在 HDFS 中的文件。具体使用 JavaStreamingContext 类的 textFileStream 方法。

由于方法名称包含“文本”,我认为这只会读取文本文件,但令我惊讶的是它也读取 gzip 压缩的文本文件。

任何人都可以澄清这是否是预期的行为以及它可以读取哪些格式?

最佳答案

是的,Spark 使用 Hadoop 的文件 I/O API,它可以透明地处理压缩格式。即使对于输出,您也可以通过属性设置配置应使用的压缩,API 将处理它。

关于java - apache Spark Streaming textFileStream - 读取 gzip 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30043239/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com