gpt4 book ai didi

scala - 传递给 Spark 的 StreamingContext.fileStream[K, V, F] ("directory"的 Key、Value 和 InputFormat 类型的性质是什么

转载 作者:行者123 更新时间:2023-12-02 21:27:58 26 4
gpt4 key购买 nike

据我了解,从目录流式传输文本文件需要 LongWritable 类型的 key , 值为 Text , 格式为 TextInputFormat .这些在 textFileStream() 中自动传递。方法。

在这种情况下,关键是行号,值是该行上的文本吗?
ParquetInputFormat 的键和值类型应该是什么? - 更一般地说,关于其他文件类型,我怎样才能为自己解决这个问题?

此外,这些类型与 DStream 有什么关系?由方法返回?如果我传递一个包含 100 列行的 parquet 文件,那么 spark 将如何将其解析为 RDD 和 DStream?

最佳答案

对于 ParquetInputFormat,我认为键类型必须是 Void,值类型必须是表示您的数据的对象。
ssc.fileStream[Void, YourObject, ParquetInputFormat[YourObject]]("hdfs:...")

关于scala - 传递给 Spark 的 StreamingContext.fileStream[K, V, F] ("directory"的 Key、Value 和 InputFormat 类型的性质是什么,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35269533/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com