gpt4 book ai didi

apache-spark - Spark : how to use SparkContext. textFile 用于本地文件系统

转载 作者:行者123 更新时间:2023-12-03 23:32:12 26 4
gpt4 key购买 nike

我刚刚开始使用 Apache Spark(在 Scala 中,但语言无关紧要)。我正在使用 独立模式 我想处理来自 的文本文件本地文件系统 (所以没有像 HDFS 那样分布式)。

根据 textFile 的文档方法来自 SparkContext , 它会

Read a text file from HDFS, a local file system (available on all nodes), or any Hadoop-supported file system URI, and return it as an RDD of Strings.



我不清楚的是,是否可以将整个文本文件复制到所有节点,或者输入数据是否应该已经分区,例如如果使用 4 个节点和一个 1000 行的 csv 文件,则每个节点上有 250 行。

我怀疑每个节点都应该有整个文件,但我不确定。

最佳答案

每个节点都应该包含一个完整的文件。在这种情况下,就该文件而言,本地文件系统在逻辑上与 HDFS 没有区别。

关于apache-spark - Spark : how to use SparkContext. textFile 用于本地文件系统,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24735516/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com