java - 如何在Spark中将JavaPairInputDStream转换为DataSet/DataFrame-6ren

java - 如何在Spark中将JavaPairInputDStream转换为DataSet/DataFrame

转载作者：行者123 更新时间：2023-12-04 10:03:14

我正在尝试从 kafka 接收流数据。在此过程中，我能够接收流数据并将其存储到 JavaPairInputDStream 中。现在我需要分析这些数据，而无需将其存储到任何数据库中。因此，我想将此 JavaPairInputDStream 转换为 DataSet 或 DataFrame

到目前为止，我尝试过的是:

import java.util.Arrays;
import java.util.Collections;
import java.util.HashMap;
import java.util.Iterator;
import java.util.List;
import java.util.Map;
import java.util.Set;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SQLContext;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.catalog.Function;
import org.apache.spark.streaming.Duration;
import org.apache.spark.streaming.api.java.AbstractJavaDStreamLike;
import org.apache.spark.streaming.api.java.JavaDStream;
import org.apache.spark.streaming.api.java.JavaPairDStream;
import org.apache.spark.streaming.api.java.JavaPairInputDStream;
import org.apache.spark.streaming.api.java.JavaStreamingContext;
import org.apache.spark.streaming.kafka.KafkaUtils;


import kafka.serializer.StringDecoder;
import scala.Tuple2;

//Streaming Working Code

public class KafkaToSparkStreaming 
{
    public static  void main(String arr[]) throws InterruptedException
    {


        SparkConf conf = new SparkConf();
        conf.set("spark.app.name", "SparkReceiver"); //The name of application. This will appear in the UI and in log data.
        //conf.set("spark.ui.port", "7077");    //Port for application's dashboard, which shows memory and workload data.
        conf.set("dynamicAllocation.enabled","false");  //Which scales the number of executors registered with this application up and down based on the workload
        //conf.set("spark.cassandra.connection.host", "localhost"); //Cassandra Host Adddress/IP
        conf.set("spark.serializer","org.apache.spark.serializer.KryoSerializer");  //For serializing objects that will be sent over the network or need to be cached in serialized form.
        //conf.setMaster("local");
        conf.set("spark.streaming.stopGracefullyOnShutdown", "true");

        JavaSparkContext sc = new JavaSparkContext(conf);
        // Create the context with 2 seconds batch size
        JavaStreamingContext ssc = new JavaStreamingContext(sc, new Duration(2000));

        Map<String, String> kafkaParams = new HashMap<String, String>();

        kafkaParams.put("zookeeper.connect", "localhost:2181"); //Make all kafka data for this cluster appear under a particular path. 
        kafkaParams.put("group.id", "testgroup");   //String that uniquely identifies the group of consumer processes to which this consumer belongs
        kafkaParams.put("metadata.broker.list", "localhost:9092"); //Producer can find a one or more Brokers to determine the Leader for each topic.
        kafkaParams.put("serializer.class", "kafka.serializer.StringEncoder"); //Serializer to use when preparing the message for transmission to the Broker.
        kafkaParams.put("request.required.acks", "1");  //Producer to require an acknowledgement from the Broker that the message was received.

        Set<String> topics = Collections.singleton("ny-2008.csv");

        //Create an input DStream for Receiving data from socket
        JavaPairInputDStream<String, String> directKafkaStream = KafkaUtils.createDirectStream(ssc,
                String.class, 
                String.class, 
                StringDecoder.class, 
                StringDecoder.class, 
                kafkaParams, topics);

    //System.out.println(directKafkaStream);
        directKafkaStream.print();
}
}

最佳答案

这是使用Spark 2.0的完整工作代码。

import java.util.Collections;
import java.util.HashMap;
import java.util.Map;
import java.util.Set;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.VoidFunction;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;
import org.apache.spark.streaming.Duration;
import org.apache.spark.streaming.api.java.JavaDStream;
import org.apache.spark.streaming.api.java.JavaPairInputDStream;
import org.apache.spark.streaming.api.java.JavaStreamingContext;
import org.apache.spark.streaming.kafka.KafkaUtils;

import kafka.serializer.StringDecoder;
import scala.Tuple2;


public class KafkaToSparkStreaming {
    public static  void main(String arr[]) throws InterruptedException
    {


        SparkConf conf = new SparkConf();
        conf.set("spark.app.name", "SparkReceiver"); //The name of application. This will appear in the UI and in log data.
        //conf.set("spark.ui.port", "7077");    //Port for application's dashboard, which shows memory and workload data.
        conf.set("dynamicAllocation.enabled","false");  //Which scales the number of executors registered with this application up and down based on the workload
        //conf.set("spark.cassandra.connection.host", "localhost"); //Cassandra Host Adddress/IP
        conf.set("spark.serializer","org.apache.spark.serializer.KryoSerializer");  //For serializing objects that will be sent over the network or need to be cached in serialized form.
        conf.setMaster("local");
        conf.set("spark.streaming.stopGracefullyOnShutdown", "true");

        JavaSparkContext sc = new JavaSparkContext(conf);
        // Create the context with 2 seconds batch size
        JavaStreamingContext ssc = new JavaStreamingContext(sc, new Duration(2000));

        Map<String, String> kafkaParams = new HashMap<String, String>();

        kafkaParams.put("zookeeper.connect", "localhost:2181"); //Make all kafka data for this cluster appear under a particular path. 
        kafkaParams.put("group.id", "testgroup");   //String that uniquely identifies the group of consumer processes to which this consumer belongs
        kafkaParams.put("metadata.broker.list", "localhost:9092"); //Producer can find a one or more Brokers to determine the Leader for each topic.
        kafkaParams.put("serializer.class", "kafka.serializer.StringEncoder"); //Serializer to use when preparing the message for transmission to the Broker.
        kafkaParams.put("request.required.acks", "1");  //Producer to require an acknowledgement from the Broker that the message was received.

        Set<String> topics = Collections.singleton("ny-2008.csv");

        //Create an input DStream for Receiving data from socket
        JavaPairInputDStream<String, String> directKafkaStream = KafkaUtils.createDirectStream(ssc,
                String.class, 
                String.class, 
                StringDecoder.class, 
                StringDecoder.class, 
                kafkaParams, topics);

        //Create JavaDStream<String>
        JavaDStream<String> msgDataStream = directKafkaStream.map(new Function<Tuple2<String, String>, String>() {
            @Override
            public String call(Tuple2<String, String> tuple2) {
              return tuple2._2();
            }
          });
        //Create JavaRDD<Row>
        msgDataStream.foreachRDD(new VoidFunction<JavaRDD<String>>() {
              @Override
              public void call(JavaRDD<String> rdd) { 
                  JavaRDD<Row> rowRDD = rdd.map(new Function<String, Row>() {
                      @Override
                      public Row call(String msg) {
                        Row row = RowFactory.create(msg);
                        return row;
                      }
                    });
        //Create Schema       
        StructType schema = DataTypes.createStructType(new StructField[] {DataTypes.createStructField("Message", DataTypes.StringType, true)});
        //Get Spark 2.0 session       
        SparkSession spark = JavaSparkSessionSingleton.getInstance(rdd.context().getConf());
        Dataset<Row> msgDataFrame = spark.createDataFrame(rowRDD, schema);
        msgDataFrame.show();
              }
        });

        ssc.start();            
        ssc.awaitTermination();  
    }

}

class JavaSparkSessionSingleton {
      private static transient SparkSession instance = null;
      public static SparkSession getInstance(SparkConf sparkConf) {
        if (instance == null) {
          instance = SparkSession
            .builder()
            .config(sparkConf)
            .getOrCreate();
        }
        return instance;
      }
    }

关于java - 如何在Spark中将JavaPairInputDStream转换为DataSet/DataFrame，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40926947/

文章推荐： snowflake-cloud-data-platform - 雪花合并对象/json

文章推荐： deep-learning - caffe:“分组”参数是什么意思？

文章推荐： shell - 如何在Unix中的文件的每一行末尾添加100个空格

文章推荐： javascript - 函数参数中变量周围的花括号是什么意思

tensorflow-datasets - Tensorflow Dataset API : dataset. batch(n).prefetch(m)预取m个批处理或样本？
如果我用 dataset.batch(n).prefetch(m), 将预提取m个批次或m个 sample ？最佳答案 Dataset.prefetch(m) 转换预取其直接输入的m元素。在这种情况
tensorflow - Dataset.map 、 Dataset.prefetch 和 Dataset.shuffle 中 buffer_size 的含义
根据 TensorFlow documentation 、tf.contrib.data.Dataset 类的 prefetch 和 map 方法，都有一个名为 buffer_size 的参数. 对于
apache-flink - Apache 弗林克 : How to create two datasets from one dataset using Flink DataSet API
我正在使用 Flink 0.10.1 的 DataSet API 编写应用程序。我可以在 Flink 中使用单个运算符获取多个收集器吗？我想做的是如下所示: val lines = env.read
python - tf.dataset.Dataset 上的数据增强
为了使用 Google Colabs TPU，我需要一个 tf.dataset.Dataset .那么如何在这样的数据集上使用数据增强？更具体地说，到目前为止我的代码是: def get_datas
.net - 将数据从一个 DataSet 循环和复制到另一个 DataSet 的最快方法
我有一个包含 2 个相关数据表(主数据表和详细信息)的数据集。我想将与我的过滤器匹配的数据(例如主数据列 A =“XXX”)复制到另一个数据集。现在我发现这个过程需要很长时间(1k 条记录大约需要一
dataset - 物理层 : time series with multiple datasets
我正在使用 .pvd文件同时加载多个文件到 Paraviw。对于具有单个数据集的时间序列，该文件看起来像这样: 我想指定要与 a.*.vtu 一起加载的其他文件(
dataset - Google 代码之夏 : web classification dataset
我听说 Google 主办(或将举办)一场网络分类竞赛，他们提供了一个大型(170k+ 文档)网站数据集，这些网站被分为多个类别(体育、计算机、科学等)，我尝试环顾四周在他们的 2009 年到 201
c# - DataSet.Copy 与 Dataset.Clone
谁能给我解释一下 DataSet.Copy() vs Dataset.Clone()也让我知道一些我们可以使用这些的场景最佳答案 Clone 将创建一个新的空数据集，其架构(表和列)与旧数据集相同。
tensorflow-datasets - tf.dataset.prefetch() buffer_size 含义
dataset = dataset.batch(50) dataset = dataset.prefetch(buffer_size=1) 是预取 1 个批次还是 1 个元素？根据 tensorfl
Delphi Dataset.Prior 与 Dataset.Next 性能对比
在 Delphi 中，与 Dataset.Next 相比，使用 Dataset.Prior 是否会降低性能？背景: 我有一个在数据集中搜索特定记录的例程。我从数据集中的最后一条记录开始，然后使用 D
java - 用逗号拆分 Dataset 上的字符串列并获取新的 Dataset
我正在使用 Spark(2.0) 开发 Spark SQL，并使用 Java API 读取 CSV。 CSV 文件中有一个双引号、逗号分隔的列。例如:“Express Air,Delivery Tru
c# - 为什么要使用 DataSet.BeginInit 和 DataSet.EndInit
为什么要使用DataSet.BeginInit 和DataSet.EndInit？我已经经历了official msdn documentation ，它说 Begins the initializ
c# - 将 DataTable 从一个 DataSet 复制到另一个 DataSet
我正在尝试向新的数据集 X 添加一个位于不同数据集 Y 中的数据表。如果我直接添加它，我会得到以下错误: DataTable already belongs to another DataSet. 我
python - Dataset.from_tensors 和 Dataset.from_tensor_slices 有什么区别？
我有一个表示为形状为 (num_features, num_examples) 的 NumPy 矩阵的数据集，我希望将其转换为 TensorFlow 类型 tf.Dataset。我正在努力理解这两种
dataset - 深度学习: Dataset containing images of varying dimensions and orientations
这是 question 的转发在 ai.stackexchange 中询问。由于该论坛没有太多吸引力，我想我可以在这里尝试一下机会。我有一个特定对象的不同尺寸的图像数据集。该物体的一些图像也处于不同
python - 将一个 tf.Dataset 与另一个 tf.Dataset 随机交错
我有两个数据集: main_ds = tf.data.Dataset.from_tensor_slices(list(range(1000, 1100))) backgroud_ds = tf.dat
java - 将 Json 的 Dataset 列解析为 Dataset
拥有Dataset单列 json 字符串: +--------------------+ | value| +--------------------+ |{"Contex
Azure数据工厂: output dataset file name from input dataset folder name
我正在尝试解决 Azure 数据工厂中的以下场景: 我在 Azure Blob 存储中有大量文件夹。每个文件夹包含不同数量的 parquet 格式的文件。文件夹名称包含生成该文件夹中包含的数据的日期，
Azure数据工厂: output dataset file name from input dataset folder name
我正在尝试解决 Azure 数据工厂中的以下场景: 我在 Azure Blob 存储中有大量文件夹。每个文件夹包含不同数量的 parquet 格式的文件。文件夹名称包含生成该文件夹中包含的数据的日期，
Tensorflow 1.12 将 dataset.filter 应用于 dataset.window
我有一个顺序数据集，我可以从中创建窗口来训练 RNN。在某些情况下，我想扔掉某些 window 。但是，当我使用 dataset.window 和 dataset.filter 时，管道内部会出现一些

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - 如何在Spark中将JavaPairInputDStream转换为DataSet/DataFrame