SparkSQL使用IDEA快速入门DataFrame与DataSet的完美教程-6ren

SparkSQL使用IDEA快速入门DataFrame与DataSet的完美教程

转载作者：qq735679552 更新时间：2022-09-27 22:32:09

26

4

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章SparkSQL使用IDEA快速入门DataFrame与DataSet的完美教程由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

1.使用IDEA开发Spark SQL

1.1创建DataFrame/DataSet

1、指定列名添加Schema 。

2、通过StrucType指定Schema 。

3、编写样例类，利用反射机制推断Schema 。

1.1.1指定列名添加Schema

 
    ? 
   
         //导包 
        
         import 
         org.apache.spark.rdd.RDD 
        
         import 
         org.apache.spark.sql.SparkSession 
        
         //代码 
        
         // 1.创建SparkSession 
        
         val spark = SparkSession.builder().master( 
         "local[*]" 
         ).appName( 
         "sql" 
         ).getOrCreate() 
        
         // 2.使用spark 获取sparkContext 上下文对象 
        
         val sc = spark.sparkContext 
        
         // 3.使用SparkContext 读取文件并按照空格切分 返回RDD 
        
         val rowRDD: RDD[(Int, String, Int)] = sc.textFile( 
         "./data/person.txt" 
         ).map(_.split( 
         " " 
         )).map(x=>(x( 
         0 
         ).toInt,x( 
         1 
         ),x( 
         2 
         ).toInt)) 
        
         // 4.导入隐式类 
        
         import 
         spark.implicits._ 
        
         //5.将RDD 转换为DataFrame 指定元数据信息 
        
         val dataFrame = rowRDD.toDF( 
         "id" 
         , 
         "name" 
         , 
         "age" 
         ) 
        
         //6.数据展示 
        
         dataFrame.show()

1.1.2StructType指定Schema

 
    ? 
   
         //导包 
        
         import 
         org.apache.spark.sql.{Row, SparkSession} 
        
         import 
         org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType} 
        
         //编写代码 
        
         //1.实例SparkSession 
        
         val spark = SparkSession.builder().master( 
         "local[*]" 
         ).appName( 
         "sql" 
         ).getOrCreate() 
        
         //2.根据SparkSession获取SparkContext 上下文对象 
        
         val sc = spark.sparkContext 
        
         // 3.使用SparkContext读取文件并按照空开切分并返回元组 
        
         val rowRDD = sc.textFile( 
         "./data/person.txt" 
         ).map(_.split( 
         " " 
         )).map(x=>Row(x( 
         0 
         ).toInt,x( 
         1 
         ),x( 
         2 
         ).toInt)) 
        
         // 4.导入隐式类 
        
         import 
         spark.implicits._ 
        
         //5.使用StructType 添加元数据信息 
        
         val schema = StructType(List( 
        
         StructField( 
         "id" 
         , IntegerType,  
         true 
         ), 
        
         StructField( 
         "name" 
         , StringType,  
         true 
         ), 
        
         StructField( 
         "age" 
         , IntegerType,  
         true 
         ) 
        
         )) 
        
         //6.将数据与元数据进行拼接 返回一个DataFrame 
        
         val dataDF = spark.createDataFrame(rowRDD,schema) 
        
         //7.数据展示 
        
         dataDF.show()

1.1.3反射推断Schema

 
    ? 
   
         //导包 
        
         import 
         org.apache.spark.rdd.RDD 
        
         import 
         org.apache.spark.sql.SparkSession 
        
         //定义单例对象 
        
         case 
         class 
         Person(Id:Int,name:String,age:Int) 
        
         //编写代码 
        
         //1.实例sparkSession 
        
         val spark = SparkSession.builder().master( 
         "local[*]" 
         ).appName( 
         "sql" 
         ).getOrCreate() 
        
         //2.通过sparkSession获取sparkContext 上下文对象 
        
         val sc = spark.sparkContext 
        
         //3.通过sparkContext 读取文件并按照空格切分 将每一个数据保存到person中 
        
         val rowRDD: RDD[Person] = sc.textFile( 
         "./data/person.txt" 
         ).map(_.split( 
         " " 
         )).map(x=>Person(x( 
         0 
         ).toInt,x( 
         1 
         ),x( 
         2 
         ).toInt)) 
        
         // 4.导入隐式类 
        
         import 
         spark.implicits._ 
        
         //5.将rowRDD转换为dataFrame 
        
         val dataFrame = rowRDD.toDF() 
        
         //6.数据展示 
        
         dataFrame.show()

到此这篇关于SparkSQL使用IDEA快速入门DataFrame与DataSet的文章就介绍到这了,更多相关SparkSQL快速入门内容请搜索我以前的文章或继续浏览下面的相关文章希望大家以后多多支持我！。

原文链接：https://blog.csdn.net/qq_43791724/article/details/105468076 。

最后此篇关于SparkSQL使用IDEA快速入门DataFrame与DataSet的完美教程的文章就讲到这里了,如果你想了解更多关于SparkSQL使用IDEA快速入门DataFrame与DataSet的完美教程的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

26

4

0

文章推荐： C语言中strlen() strcpy() strcat() strcmp()函数的实现方法

文章推荐： thinkPHP和onethink微信支付插件分享

文章推荐： C语言实现斐波那契数列(非递归)的实例讲解

tensorflow-datasets - Tensorflow Dataset API : dataset. batch(n).prefetch(m)预取m个批处理或样本？
如果我用 dataset.batch(n).prefetch(m), 将预提取m个批次或m个 sample ？最佳答案 Dataset.prefetch(m) 转换预取其直接输入的m元素。在这种情况
tensorflow - Dataset.map 、 Dataset.prefetch 和 Dataset.shuffle 中 buffer_size 的含义
根据 TensorFlow documentation 、tf.contrib.data.Dataset 类的 prefetch 和 map 方法，都有一个名为 buffer_size 的参数. 对于
apache-flink - Apache 弗林克 : How to create two datasets from one dataset using Flink DataSet API
我正在使用 Flink 0.10.1 的 DataSet API 编写应用程序。我可以在 Flink 中使用单个运算符获取多个收集器吗？我想做的是如下所示: val lines = env.read
python - tf.dataset.Dataset 上的数据增强
为了使用 Google Colabs TPU，我需要一个 tf.dataset.Dataset .那么如何在这样的数据集上使用数据增强？更具体地说，到目前为止我的代码是: def get_datas
.net - 将数据从一个 DataSet 循环和复制到另一个 DataSet 的最快方法
我有一个包含 2 个相关数据表(主数据表和详细信息)的数据集。我想将与我的过滤器匹配的数据(例如主数据列 A =“XXX”)复制到另一个数据集。现在我发现这个过程需要很长时间(1k 条记录大约需要一
dataset - 物理层 : time series with multiple datasets
我正在使用 .pvd文件同时加载多个文件到 Paraviw。对于具有单个数据集的时间序列，该文件看起来像这样: 我想指定要与 a.*.vtu 一起加载的其他文件(
dataset - Google 代码之夏 : web classification dataset
我听说 Google 主办(或将举办)一场网络分类竞赛，他们提供了一个大型(170k+ 文档)网站数据集，这些网站被分为多个类别(体育、计算机、科学等)，我尝试环顾四周在他们的 2009 年到 201
c# - DataSet.Copy 与 Dataset.Clone
谁能给我解释一下 DataSet.Copy() vs Dataset.Clone()也让我知道一些我们可以使用这些的场景最佳答案 Clone 将创建一个新的空数据集，其架构(表和列)与旧数据集相同。
tensorflow-datasets - tf.dataset.prefetch() buffer_size 含义
dataset = dataset.batch(50) dataset = dataset.prefetch(buffer_size=1) 是预取 1 个批次还是 1 个元素？根据 tensorfl
Delphi Dataset.Prior 与 Dataset.Next 性能对比
在 Delphi 中，与 Dataset.Next 相比，使用 Dataset.Prior 是否会降低性能？背景: 我有一个在数据集中搜索特定记录的例程。我从数据集中的最后一条记录开始，然后使用 D
java - 用逗号拆分 Dataset 上的字符串列并获取新的 Dataset
我正在使用 Spark(2.0) 开发 Spark SQL，并使用 Java API 读取 CSV。 CSV 文件中有一个双引号、逗号分隔的列。例如:“Express Air,Delivery Tru
c# - 为什么要使用 DataSet.BeginInit 和 DataSet.EndInit
为什么要使用DataSet.BeginInit 和DataSet.EndInit？我已经经历了official msdn documentation ，它说 Begins the initializ
c# - 将 DataTable 从一个 DataSet 复制到另一个 DataSet
我正在尝试向新的数据集 X 添加一个位于不同数据集 Y 中的数据表。如果我直接添加它，我会得到以下错误: DataTable already belongs to another DataSet. 我
python - Dataset.from_tensors 和 Dataset.from_tensor_slices 有什么区别？
我有一个表示为形状为 (num_features, num_examples) 的 NumPy 矩阵的数据集，我希望将其转换为 TensorFlow 类型 tf.Dataset。我正在努力理解这两种
dataset - 深度学习: Dataset containing images of varying dimensions and orientations
这是 question 的转发在 ai.stackexchange 中询问。由于该论坛没有太多吸引力，我想我可以在这里尝试一下机会。我有一个特定对象的不同尺寸的图像数据集。该物体的一些图像也处于不同
python - 将一个 tf.Dataset 与另一个 tf.Dataset 随机交错
我有两个数据集: main_ds = tf.data.Dataset.from_tensor_slices(list(range(1000, 1100))) backgroud_ds = tf.dat
java - 将 Json 的 Dataset 列解析为 Dataset
拥有Dataset单列 json 字符串: +--------------------+ | value| +--------------------+ |{"Contex
Azure数据工厂: output dataset file name from input dataset folder name
我正在尝试解决 Azure 数据工厂中的以下场景: 我在 Azure Blob 存储中有大量文件夹。每个文件夹包含不同数量的 parquet 格式的文件。文件夹名称包含生成该文件夹中包含的数据的日期，
Azure数据工厂: output dataset file name from input dataset folder name
我正在尝试解决 Azure 数据工厂中的以下场景: 我在 Azure Blob 存储中有大量文件夹。每个文件夹包含不同数量的 parquet 格式的文件。文件夹名称包含生成该文件夹中包含的数据的日期，
Tensorflow 1.12 将 dataset.filter 应用于 dataset.window
我有一个顺序数据集，我可以从中创建窗口来训练 RNN。在某些情况下，我想扔掉某些 window 。但是，当我使用 dataset.window 和 dataset.filter 时，管道内部会出现一些

首页

博学

6Ren·AI

商城