gpt4 book ai didi

java - 如何使用Java Spark Hadoop解决此情况:大文本文件并需要获取文件名

转载 作者:行者123 更新时间:2023-12-02 22:07:27 24 4
gpt4 key购买 nike

我是学生,这是我的第一个Spark项目。
我正在一个项目中,旨在寻找可在大型DNA数据集中发现疾病的模式。
我正在使用Java 7,Hadoop 2.5.1和Spark 1.3.1

在写问题之前,我向您介绍情况以及到目前为止所做的事情。

我需要创建一个矩阵,在行中具有样本,在列中具有属性。
为了识别每一行,我需要在第一栏中输入文件名。为了对每一行进行分类,我需要指定样本是案例还是控件,此信息将从文件名中恢复。因此,必须恢复文件名。

必须从不同的文本文件创建矩阵,每个文本代表一个样本。每个文件的属性均在列中列出。因此,我需要转置此列以便在矩阵中使用它(但这应该很简单)。

最后重要的一点是,每个文本文件的大小都> 100MB。

这就是我所做的。
我开始使用textFile方法,但是在Google上花费了多个小时之后,我知道无法获取文件名。
我尝试使用wholeTextFiles方法,对小文件来说一切正常,但是当我对每个100Mb的文件进行尝试时,出现内存堆错误。
我做的最后一件事是使用newAPIHadoopFile,但是我发现很难使用它,而且我也没有找到好的文档。

有人有这样的问题吗?有人有解决这个问题的好秘诀吗?

谢谢

最佳答案

感谢@RealSkeptic建议,我解决了这个问题。
我使用wholeTestFiles方法创建具有路径和整个内容的RDD对。然后,我通过添加和设置以下两个参数来修改spark-submit命令:--executor-memory 20G--total-executor-cores 10

关于java - 如何使用Java Spark Hadoop解决此情况:大文本文件并需要获取文件名,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44699231/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com