hadoop - 如何从 sequenceFile 创建一个 spark DataFrame-6ren

hadoop - 如何从 sequenceFile 创建一个 spark DataFrame

转载作者：可可西里更新时间：2023-11-01 14:23:54

25

4

我正在使用 spark 1.5。我想从 HDFS 中的文件创建一个 dataframe。 HDFS 文件包含 json 数据，其中包含大量序列输入文件格式的字段。

有没有办法在 java 中优雅地做到这一点？事先不知道json的结构/字段。

我能够从序列文件中将输入作为 RDD，如下所示:

JavaPairRDD<LongWritable,BytesWritable> inputRDD = jsc.sequenceFile("s3n://key_id:secret_key@file/path", LongWritable.class, BytesWritable.class);
JavaRDD<String> events = inputRDD.map(
    new Function<Tuple2<LongWritable,BytesWritable>, String>() {
        public String call(Tuple2<LongWritable,BytesWritable> tuple) {
            return Text.decode(tuple._2.getBytes());
        }
    }
);

我如何从这个 RDD 创建数据框？

最佳答案

我对序列文件中的 json 数据执行了以下操作:

    JavaRDD<String> events = inputRDD.map(
    new Function<Tuple2<LongWritable,BytesWritable>, String>() {
        public String call(Tuple2<LongWritable,BytesWritable> tuple) throws JSONException, UnsupportedEncodingException {
            String valueAsString = new String(tuple._2.getBytes(), "UTF-8");
            JSONObject data = new JSONObject(valueAsString);
            JSONObject payload = new JSONObject(data.getString("payload"));
            String atlas_ts = "";
            return payload.toString();
        }
    }
    );

关于hadoop - 如何从 sequenceFile 创建一个 spark DataFrame，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32697687/

25

4

0

文章推荐： java - 尝试使用自定义 SerDe 创建 Hive 表时出错

文章推荐： windows - Windows Server 2012 R2 上的 RabbitMQ 在启动时崩溃

文章推荐： hadoop - HBase WAL文件和HDFS数据暂存

java - EOFException 在 org.apache.hadoop.io.SequenceFile$Reader.init(SequenceFile.java :1508)
我试图运行 Norstadt 先生在以下链接下提供的矩阵乘法示例 http://www.norstad.org/matrix-multiply/index.html .我可以使用 hadoop 0.2
java - InputStream到Hadoop SequenceFile
我有一个代表序列文件的通用输入流。我想从中创建一个SequenceFile.Reader或类似的类，而无需将输出流写入磁盘上的临时文件。是否有一些事情让我从输入流转到允许我从输入流中读取键/值对的东西
hadoop - SequenceFile.Writer的sync和syncFs是什么意思？
环境:Hadoop 0.20.2-cdh3u5 我正在尝试使用使用 SequenceFile.Writer 的自定义工具将日志数据 (10G) 上传到 HDFS。 SequenceFile.Write
hadoop - 使用 SequenceFile 类写入文件
我使用以下代码将一些数据写入 SequenceFile 格式文件。当程序运行一段时间时，我通过 Eclipse 控制台上的红色按钮中断程序。但是，当我检查 hdfs 上的数据文件时，序列文件的大小为零
java - 具有Java类的Hive SequenceFile；只需传递给toString()
我有一个Hadoop SequenceFile，其中的键是IntWritable，值是实现Writable的任意Java类，并带有有趣的toString()方法。我想制作一个两列Hive表，其中第一列
java - Hadoop SequenceFile-记录的自动增量键
我正在考虑使用SequenceFile作为“小数据库”来存储小文件。我需要并发客户端可以在此SequenceFile中存储小文件并检索唯一的ID(记录的键)。有可能吗？我是hadoop的新手，正在阅
java - Hadoop SequenceFile 二进制文件安全吗？
我看了hadoop-1.0.4源码中的SequenceFile.java。我找到了 sync(long) 方法它用于在将 SequenceFile 拆分为 MapReduce 中的文件拆分时在 Seq
hadoop - WebHDFS 和 SequenceFiles
WebHDFS 真的不支持 SequenceFiles 吗？我找不到任何说明它确实如此的东西。我遇到了常见的小文件问题，并且相信 SequenceFiles 可以正常工作，但我需要使用 WebHDF
hadoop - SequenceFile 作为带有自定义类的文本 CLI
我有一个 SequenceFile 格式的 HDFS 文件。键是 Text，值是自定义可序列化类(例如)MyCustomClass。我想通过 hadoop fs -text 命令读取此文件，但它失败了
Hadoop SequenceFile 与可拆分 LZO
我们正在选择存储原始日志的文件格式，主要要求是压缩和可拆分。 block 压缩(以编解码器为准)SequenceFiles和 Hadoop-LZO到目前为止看起来最合适。哪一个被Map-Reduce
java - Hadoop 追加到 Sequencefile
目前我使用以下代码附加到现有的 SequenceFile: // initialize sequence writer Writer writer = SequenceFile.createWrite
java - 为什么 SequenceFile 被截断了？
我正在学习Hadoop，这个问题困扰了我一段时间。基本上，我正在将一个 SequenceFile 写入磁盘，然后将其读回。但是，每次读取时都会得到一个EOFException。更深层次的观察发现，在写
apache - 如何检查缺少完整模式信息的 Hadoop SequenceFile？
我有一个来自客户的压缩 Hadoop 序列文件，我想检查一下。我目前没有完整的架构信息(我正在单独处理)。但在此期间(并希望有一个通用解决方案)，我有哪些检查文件的选项？我找到了一个工具 forq
hadoop - 以受控方式拆分 SequenceFile - Hadoop
hadoop 以键值对(记录)格式写入 SequenceFile。考虑我们有一个大的无界日志文件。 Hadoop 会根据 block 大小拆分文件，并将它们保存在多个数据节点上。是否保证每个键值对都位
hadoop - HDFS 追加到 SequenceFile 很慢
附加到 SequenceFiles 似乎很慢。我们将文件夹(其中包含小文件)转换为 SequenceFiles，使用文件名作为键，内容作为值。但是，吞吐量非常低，大约为 2MB/s(每秒大约 2 到
java - Mahout:将一个大文本文件转换为 SequenceFile 格式
我在网上为此做了很多搜索，但我什么也没找到，尽管我觉得它一定有些常见。我过去曾使用 Mahout 的 seqdirectory 命令来转换包含文本文件的文件夹(每个文件都是一个单独的文档)。但在这种情
java - 为什么 SequenceFile writer 的附加操作会用最后一个值覆盖所有值？
首先，考虑这个 CustomWriter 类: public final class CustomWriter { private final SequenceFile.Writer writer
hadoop - 为什么 Hadoop SequenceFile 写比读慢很多？
我正在使用 Java API 将我拥有的一些自定义文件转换为 hadoop 序列文件。我正在从本地文件读取字节数组并将它们作为索引(整数)- 数据(字节[])对附加到序列文件: InputStrea
java - SequenceFile 到 .txt 转换
有什么方法可以将序列文件转换为.txt 文件吗？ sequencefile 是在 hadoop 作业之后生成的，当我尝试使用 SequenceFileReader 读取它时给我一个 EOFExcept
工作流中中间作业的 Hadoop SequenceFile 输入/输出
我有一个多阶段/作业 mapreduce 程序。我的第一个输入必须是 TextInputFormat，最后一个输出必须是 TextOutputFormat。我想要实现的是在第一个作业中将格式从 Tex

首页

博学

6Ren·AI

商城

hadoop - 如何从 sequenceFile 创建一个 spark DataFrame