gpt4 book ai didi

java - 如何分割输入数据并将其加载到RDD

转载 作者:行者123 更新时间:2023-11-30 03:04:23 25 4
gpt4 key购买 nike

我有 TB 的数据需要使用 Apache Spark 处理。我使用代码 sparkContext.binaryFiles(folderpath) 加载文件夹中的所有数据。我认为它将完整数据加载到 RDD 并导致 OutOfMemory 错误。

如何将1TB数据拆分为250GB并让RDD加载?

最佳答案

不幸的是,binaryFiles 将每个文件作为 RDD 中的一个条目加载。我假设您将所有数据保存在一个文件中或仅保存其中几个文件中。

基本上,您有两种选择:

  • 如果可能的话,将文件分割成更小的文件(实际方法取决于数据格式)
  • 实现InputFormat它理解您的数据格式(或搜索已经执行此操作的数据格式)并正确设置分割数。然后,您可以使用sparkContext.hadoopFile()传递输入格式的方法。

关于java - 如何分割输入数据并将其加载到RDD,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35173462/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com