gpt4 book ai didi

scala - 将每个文件激发到数据集行

转载 作者:行者123 更新时间:2023-12-02 08:15:55 25 4
gpt4 key购买 nike

我在一个目录中有很多文件,每个文件都包含跨多行的文本。目前,我使用以下代码将所有这些文件读取到 spark 数据集 (>2.0)

   val ddf = spark.read.text("file:///input/*")

但是,这会创建一个数据集,其中每一行都是一行,而不是一个文件。我希望数据集中的每行都有每个文件(作为字符串)。

如何在不遍历每个文件并将其作为 RDD 单独读取的情况下实现这一点?

最佳答案

SparkContext 上使用 wholeTextFiles()

val rdd: RDD[(String, String)] = spark.sparkContext
.wholeTextFiles("file/path/to/read/as/rdd")

SparkContext.wholeTextFiles lets you read a directory containing multiple small text files, and returns each of them as (filename, content) pairs. This is in contrast with textFile, which would return one record per line in each file.

关于scala - 将每个文件激发到数据集行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41898189/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com