DataFrame:通过SparkSql将scala类转为DataFrame的方法-6ren

DataFrame:通过SparkSql将scala类转为DataFrame的方法

转载作者：qq735679552 更新时间：2022-09-28 22:32:09

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章DataFrame:通过SparkSql将scala类转为DataFrame的方法由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

如下所示:

 
    ? 
   
 
     
       
       
         import 
         java.text.DecimalFormat 
        
 
         import 
         com.alibaba.fastjson.JSON 
        
 
         import 
         com.donews.data.AppConfig 
        
 
         import 
         com.typesafe.config.ConfigFactory 
        
 
         import 
         org.apache.spark.sql.types.{StructField, StructType} 
        
 
         import 
         org.apache.spark.sql.{Row, SaveMode, DataFrame, SQLContext} 
        
 
         import 
         org.apache.spark.{SparkConf, SparkContext} 
        
 
         import 
         org.slf4j.LoggerFactory 
        
 
           
        
 
         / 
         * 
         * 
        
 
           
         * 
         Created by silentwolf on  
         2016 
         / 
         6 
         / 
         3. 
        
 
           
         * 
         / 
        
 
           
        
 
         case  
         class 
         UserTag(SUUID: String, 
        
 
               
         MAN:  
         Float 
         , 
        
 
               
         WOMAN:  
         Float 
         , 
        
 
               
         AGE10_19:  
         Float 
         , 
        
 
               
         AGE20_29:  
         Float 
         , 
        
 
               
         AGE30_39:  
         Float 
         , 
        
 
               
         AGE40_49:  
         Float 
         , 
        
 
               
         AGE50_59:  
         Float 
         , 
        
 
               
         GAME:  
         Float 
         , 
        
 
               
         MOVIE:  
         Float 
         , 
        
 
               
         MUSIC:  
         Float 
         , 
        
 
               
         ART:  
         Float 
         , 
        
 
               
         POLITICS_NEWS:  
         Float 
         , 
        
 
               
         FINANCIAL:  
         Float 
         , 
        
 
               
         EDUCATION_TRAINING:  
         Float 
         , 
        
 
               
         HEALTH_CARE:  
         Float 
         , 
        
 
               
         TRAVEL:  
         Float 
         , 
        
 
               
         AUTOMOBILE:  
         Float 
         , 
        
 
               
         HOUSE_PROPERTY:  
         Float 
         , 
        
 
               
         CLOTHING_ACCESSORIES:  
         Float 
         , 
        
 
               
         BEAUTY:  
         Float 
         , 
        
 
               
         IT:  
         Float 
         , 
        
 
               
         BABY_PRODUCT:  
         Float 
         , 
        
 
               
         FOOD_SERVICE:  
         Float 
         , 
        
 
               
         HOME_FURNISHING:  
         Float 
         , 
        
 
               
         SPORTS:  
         Float 
         , 
        
 
               
         OUTDOOR_ACTIVITIES:  
         Float 
         , 
        
 
               
         MEDICINE:  
         Float 
        
 
               
         ) 
        
 
           
        
 
         object 
         UserTagTable { 
        
 
           
        
 
           
         val LOG  
         = 
         LoggerFactory.getLogger(UserOverviewFirst.getClass) 
        
 
           
        
 
           
         val REP_HOME  
         = 
         s 
         "${AppConfig.HDFS_MASTER}/${AppConfig.HDFS_REP}" 
        
 
           
        
 
           
         def 
         main(args: Array[String]) { 
        
 
           
        
 
           
         var startTime  
         = 
         System.currentTimeMillis() 
        
 
           
        
 
           
         val conf: com.typesafe.config.Config  
         = 
         ConfigFactory.load() 
        
 
           
        
 
           
         val sc  
         = 
         new SparkContext() 
        
 
           
        
 
           
         val sqlContext  
         = 
         new SQLContext(sc) 
        
 
           
        
 
           
         var df1: DataFrame  
         = 
         null 
        
 
           
        
 
           
         if 
         (args.length  
         = 
         = 
         0 
         ) { 
        
 
            
         println( 
         "请输入： appkey , StartTime ： 2016-04-10 ，StartEnd ：2016-04-11" 
         ) 
        
 
           
         } 
        
 
           
         else 
         { 
        
 
           
        
 
            
         var appkey  
         = 
         args( 
         0 
         ) 
        
 
           
        
 
            
         var lastdate  
         = 
         args( 
         1 
         ) 
        
 
           
        
 
            
         df1  
         = 
         loadDataFrame(sqlContext, appkey,  
         "2016-04-10" 
         , lastdate) 
        
 
           
        
 
            
         df1.registerTempTable( 
         "suuidTable" 
         ) 
        
 
           
        
 
            
         sqlContext.udf.register( 
         "taginfo" 
         , (a: String)  
         = 
         > userTagInfo(a)) 
        
 
            
         sqlContext.udf.register( 
         "intToString" 
         , (b:  
         Long 
         )  
         = 
         > intToString(b)) 
        
 
            
         import 
         sqlContext.implicits._ 
        
 
           
        
 
            
         / 
         / 
         * 
         * 
         * 
         重点 
         * 
         * 
         * 
         ：将临时表中的suuid和自定函数中Json数据，放入UserTag中。 
        
 
           
         sqlContext.sql( 
         " select distinct(suuid) AS suuid,taginfo(suuid) from suuidTable group by suuid" 
         ). 
         map 
         { case Row(suuid: String, taginfo: String)  
         = 
         > 
        
 
            
         val taginfoObj  
         = 
         JSON.parseObject(taginfo) 
        
 
            
         UserTag(suuid.toString, 
        
 
             
         taginfoObj.getFloat( 
         "man" 
         ), 
        
 
             
         taginfoObj.getFloat( 
         "woman" 
         ), 
        
 
             
         taginfoObj.getFloat( 
         "age10_19" 
         ), 
        
 
             
         taginfoObj.getFloat( 
         "age20_29" 
         ), 
        
 
             
         taginfoObj.getFloat( 
         "age30_39" 
         ), 
        
 
             
         taginfoObj.getFloat( 
         "age40_49" 
         ), 
        
 
             
         taginfoObj.getFloat( 
         "age50_59" 
         ), 
        
 
             
         taginfoObj.getFloat( 
         "game" 
         ), 
        
 
             
         taginfoObj.getFloat( 
         "movie" 
         ), 
        
 
             
         taginfoObj.getFloat( 
         "music" 
         ), 
        
 
             
         taginfoObj.getFloat( 
         "art" 
         ), 
        
 
             
         taginfoObj.getFloat( 
         "politics_news" 
         ), 
        
 
             
         taginfoObj.getFloat( 
         "financial" 
         ), 
        
 
             
         taginfoObj.getFloat( 
         "education_training" 
         ), 
        
 
             
         taginfoObj.getFloat( 
         "health_care" 
         ), 
        
 
             
         taginfoObj.getFloat( 
         "travel" 
         ), 
        
 
             
         taginfoObj.getFloat( 
         "automobile" 
         ), 
        
 
             
         taginfoObj.getFloat( 
         "house_property" 
         ), 
        
 
             
         taginfoObj.getFloat( 
         "clothing_accessories" 
         ), 
        
 
             
         taginfoObj.getFloat( 
         "beauty" 
         ), 
        
 
             
         taginfoObj.getFloat( 
         "IT" 
         ), 
        
 
             
         taginfoObj.getFloat( 
         "baby_Product" 
         ), 
        
 
             
         taginfoObj.getFloat( 
         "food_service" 
         ), 
        
 
             
         taginfoObj.getFloat( 
         "home_furnishing" 
         ), 
        
 
             
         taginfoObj.getFloat( 
         "sports" 
         ), 
        
 
             
         taginfoObj.getFloat( 
         "outdoor_activities" 
         ), 
        
 
             
         taginfoObj.getFloat( 
         "medicine" 
         ) 
        
 
            
         )}.toDF().registerTempTable( 
         "resultTable" 
         ) 
        
 
           
        
 
            
         val resultDF  
         = 
         sqlContext.sql(s 
         "select '$appkey' AS APPKEY, '$lastdate' AS DATE,SUUID ,MAN,WOMAN,AGE10_19,AGE20_29,AGE30_39 ," 
         + 
        
 
            
         "AGE40_49 ,AGE50_59,GAME,MOVIE,MUSIC,ART,POLITICS_NEWS,FINANCIAL,EDUCATION_TRAINING,HEALTH_CARE,TRAVEL,AUTOMOBILE," 
         + 
        
 
            
         "HOUSE_PROPERTY,CLOTHING_ACCESSORIES,BEAUTY,IT,BABY_PRODUCT ,FOOD_SERVICE ,HOME_FURNISHING ,SPORTS ,OUTDOOR_ACTIVITIES ," 
         + 
        
 
            
         "MEDICINE from resultTable WHERE SUUID IS NOT NULL" 
         ) 
        
 
            
         resultDF.write.mode(SaveMode.Overwrite).options( 
        
 
            
         Map 
         ( 
         "table" 
         - 
         >  
         "USER_TAGS" 
         ,  
         "zkUrl" 
         - 
         > conf.getString( 
         "Hbase.url" 
         )) 
        
 
            
         ). 
         format 
         ( 
         "org.apache.phoenix.spark" 
         ).save() 
        
 
           
        
 
           
         } 
        
 
           
         } 
        
 
           
        
 
           
         def 
         intToString(suuid:  
         Long 
         ): String  
         = 
         { 
        
 
           
         suuid.toString() 
        
 
           
         } 
        
 
           
        
 
           
         def 
         userTagInfo(num1: String): String  
         = 
         { 
        
 
           
        
 
           
         var de  
         = 
         new DecimalFormat( 
         "0.00" 
         ) 
        
 
           
         var mannum  
         = 
         de. 
         format 
         (math.random).toFloat 
        
 
           
         var man  
         = 
         mannum 
        
 
           
         var woman  
         = 
         de. 
         format 
         ( 
         1 
         - 
         mannum).toFloat 
        
 
           
        
 
           
         var age10_19num  
         = 
         de. 
         format 
         (math.random  
         * 
         0.2 
         ).toFloat 
        
 
           
         var age20_29num  
         = 
         de. 
         format 
         (math.random  
         * 
         0.2 
         ).toFloat 
        
 
           
         var age30_39num  
         = 
         de. 
         format 
         (math.random  
         * 
         0.2 
         ).toFloat 
        
 
           
         var age40_49num  
         = 
         de. 
         format 
         (math.random  
         * 
         0.2 
         ).toFloat 
        
 
           
        
 
           
         var age10_19  
         = 
         age10_19num 
        
 
           
         var age20_29  
         = 
         age20_29num 
        
 
           
         var age30_39  
         = 
         age30_39num 
        
 
           
         var age40_49  
         = 
         age40_49num 
        
 
           
         var age50_59  
         = 
         de. 
         format 
         ( 
         1 
         - 
         age10_19num  
         - 
         age20_29num  
         - 
         age30_39num  
         - 
         age40_49num).toFloat 
        
 
           
        
 
           
         var game  
         = 
         de. 
         format 
         (math.random  
         * 
         1 
         ).toFloat 
        
 
           
         var movie  
         = 
         de. 
         format 
         (math.random  
         * 
         1 
         ).toFloat 
        
 
           
         var music  
         = 
         de. 
         format 
         (math.random  
         * 
         1 
         ).toFloat 
        
 
           
         var art  
         = 
         de. 
         format 
         (math.random  
         * 
         1 
         ).toFloat 
        
 
           
         var politics_news  
         = 
         de. 
         format 
         (math.random  
         * 
         1 
         ).toFloat 
        
 
           
        
 
           
         var financial  
         = 
         de. 
         format 
         (math.random  
         * 
         1 
         ).toFloat 
        
 
           
         var education_training  
         = 
         de. 
         format 
         (math.random  
         * 
         1 
         ).toFloat 
        
 
           
         var health_care  
         = 
         de. 
         format 
         (math.random  
         * 
         1 
         ).toFloat 
        
 
           
         var travel  
         = 
         de. 
         format 
         (math.random  
         * 
         1 
         ).toFloat 
        
 
           
         var automobile  
         = 
         de. 
         format 
         (math.random  
         * 
         1 
         ).toFloat 
        
 
           
        
 
           
         var house_property  
         = 
         de. 
         format 
         (math.random  
         * 
         1 
         ).toFloat 
        
 
           
         var clothing_accessories  
         = 
         de. 
         format 
         (math.random  
         * 
         1 
         ).toFloat 
        
 
           
         var beauty  
         = 
         de. 
         format 
         (math.random  
         * 
         1 
         ).toFloat 
        
 
           
         var IT  
         = 
         de. 
         format 
         (math.random  
         * 
         1 
         ).toFloat 
        
 
           
         var baby_Product  
         = 
         de. 
         format 
         (math.random  
         * 
         1 
         ).toFloat 
        
 
           
        
 
           
         var food_service  
         = 
         de. 
         format 
         (math.random  
         * 
         1 
         ).toFloat 
        
 
           
         var home_furnishing  
         = 
         de. 
         format 
         (math.random  
         * 
         1 
         ).toFloat 
        
 
           
         var sports  
         = 
         de. 
         format 
         (math.random  
         * 
         1 
         ).toFloat 
        
 
           
         var outdoor_activities  
         = 
         de. 
         format 
         (math.random  
         * 
         1 
         ).toFloat 
        
 
           
         var medicine  
         = 
         de. 
         format 
         (math.random  
         * 
         1 
         ).toFloat 
        
 
           
        
 
           
         "{" 
         + 
         "\"man\"" 
         + 
         ":" 
         + 
         man  
         + 
         "," 
         + 
         "\"woman\"" 
         + 
         ":" 
         + 
         woman  
         + 
         "," 
         + 
         "\"age10_19\"" 
         + 
         ":" 
         + 
         age10_19  
         + 
         "," 
         + 
         "\"age20_29\"" 
         + 
         ":" 
         + 
         age20_29  
         + 
         "," 
         + 
        
 
            
         "\"age30_39\"" 
         + 
         ":" 
         + 
         age30_39  
         + 
         "," 
         + 
         "\"age40_49\"" 
         + 
         ":" 
         + 
         age40_49  
         + 
         "," 
         + 
         "\"age50_59\"" 
         + 
         ":" 
         + 
         age50_59  
         + 
         "," 
         + 
         "\"game\"" 
         + 
         ":" 
         + 
         game  
         + 
         "," 
         + 
        
 
            
         "\"movie\"" 
         + 
         ":" 
         + 
         movie  
         + 
         "," 
         + 
         "\"music\"" 
         + 
         ":" 
         + 
         music  
         + 
         "," 
         + 
         "\"art\"" 
         + 
         ":" 
         + 
         art  
         + 
         "," 
         + 
         "\"politics_news\"" 
         + 
         ":" 
         + 
         politics_news  
         + 
         "," 
         + 
        
 
            
         "\"financial\"" 
         + 
         ":" 
         + 
         financial  
         + 
         "," 
         + 
         "\"education_training\"" 
         + 
         ":" 
         + 
         education_training  
         + 
         "," 
         + 
         "\"health_care\"" 
         + 
         ":" 
         + 
         health_care  
         + 
         "," 
         + 
        
 
            
         "\"travel\"" 
         + 
         ":" 
         + 
         travel  
         + 
         "," 
         + 
         "\"automobile\"" 
         + 
         ":" 
         + 
         automobile  
         + 
         "," 
         + 
         "\"house_property\"" 
         + 
         ":" 
         + 
         house_property  
         + 
         "," 
         + 
         "\"clothing_accessories\"" 
         + 
         ":" 
         + 
         clothing_accessories  
         + 
         "," 
         + 
        
 
            
         "\"beauty\"" 
         + 
         ":" 
         + 
         beauty  
         + 
         "," 
         + 
         "\"IT\"" 
         + 
         ":" 
         + 
         IT  
         + 
         "," 
         + 
         "\"baby_Product\"" 
         + 
         ":" 
         + 
         baby_Product  
         + 
         "," 
         + 
         "\"food_service\"" 
         + 
         ":" 
         + 
         food_service  
         + 
         "," 
         + 
        
 
            
         "\"home_furnishing\"" 
         + 
         ":" 
         + 
         home_furnishing  
         + 
         "," 
         + 
         "\"sports\"" 
         + 
         ":" 
         + 
         sports  
         + 
         "," 
         + 
         "\"outdoor_activities\"" 
         + 
         ":" 
         + 
         outdoor_activities  
         + 
         "," 
         + 
         "\"medicine\"" 
         + 
         ":" 
         + 
         medicine  
         + 
        
 
            
         "}" 
         ; 
        
 
           
        
 
           
         } 
        
 
           
        
 
           
         def 
         loadDataFrame(ctx: SQLContext, appkey: String, startDay: String, endDay: String): DataFrame  
         = 
         { 
        
 
           
         val path  
         = 
         s 
         "$REP_HOME/appstatistic" 
        
 
           
         ctx.read.parquet(path) 
        
 
            
         . 
         filter 
         (s 
         "timestamp is not null and appkey='$appkey' and day>='$startDay' and day<='$endDay'" 
         ) 
        
 
           
         } 
        
 
           
        
 
           
        
 
         } 
        
 
     
 
   

以上这篇DataFrame:通过SparkSql将scala类转为DataFrame的方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持我.

原文链接：https://blog.csdn.net/silentwolfyh/article/details/51966952 。

最后此篇关于DataFrame:通过SparkSql将scala类转为DataFrame的方法的文章就讲到这里了,如果你想了解更多关于DataFrame:通过SparkSql将scala类转为DataFrame的方法的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐：把pandas转换int型为str型的方法

文章推荐：使用pandas把某一列的字符值转换为数字的实例

文章推荐： Python不同目录间进行模块调用的实现方法

文章推荐： pandas去除重复列的实现方法

scala - Scala 可以在参数中允许自由类型参数吗(Scala 类型参数是一等公民吗？)？
我有一些 Scala 代码，它用两个不同版本的类型参数化函数做了一些漂亮的事情。我已经从我的应用程序中简化了很多，但最后我的代码充满了形式 w(f[Int],f[Double]) 的调用。哪里w()是
scala - Scala 脚本可以引用同一目录中其他未编译的 scala 代码吗？
如果我在同一目录中有两个单独的未编译的 scala 文件: // hello.scala object hello { def world() = println("hello world") }
scala - Spark Scala 获取类未找到 scala.Any
val schema = df.schema val x = df.flatMap(r => (0 until schema.length).map { idx => ((idx, r.g
scala - 错误 : scala: No 'scala-library*.jar' in Scala compiler library
环境: Play 2.3.0/Scala 2.11.1/IntelliJ 13.1 我使用 Typesafe Activator 1.2.1 用 Scala 2.11.1 创建一个新项目。项目创建好后
scala - 如何使我的 Scala jar 库中的类可以在 Scala 控制台和 Scala 脚本中访问？
我只是想知道如何使用我自己的类扩展 Scala 控制台和“脚本”运行程序，以便我可以通过使用实际的 Scala 语言与其通信来实际使用我的代码？我应将 jar 放在哪里，以便无需临时配置即可从每个 S
scala - ensime scala 错误(未找到类 scala.Array，未找到对象 scala)
我已经根据 README.md 文件安装了 ensime，但是，我在低级 ensime-server 缓冲区中出现以下错误: 信息: fatal error :scala.tools.nsc.Miss
scala - Scala 中的函数相等，是 Scala 中的函数对象吗？
我正在阅读《Scala 编程》一书。在书中，它说“一个函数文字被编译成一个类，当在运行时实例化时它是一个函数值”。并且它提到“函数值是对象，因此您可以根据需要将它们存储在变量中”。所以我尝试检查函数
scala - 如何在 Scala 原生应用程序中运行 Scala 测试？
我有 hello world scala native 应用程序，想对此应用程序运行小型 scala 测试我使用通常的测试命令，但它抛出异常: NativeMain.scala object Nati
scala - 从 Scala 编译器插件生成 Scala 代码树
有few resources在网络上，在编写与代码模式匹配的 Scala 编译器插件方面很有指导意义，但这些对生成代码(构建符号树)没有帮助。我应该从哪里开始弄清楚如何做到这一点？ (如果有比手动构建
scala - 使用仅适用于较旧 Scala 版本的 Scala 库
我是 Scala 的新手。但是，我用创建了一个中等大小的程序。斯卡拉 2.9.0 .现在我想使用一个仅适用于的开源库斯卡拉 2.7.7 . 是吗可能在我的 Scala 2.9.0 程序中使用这个
scala - Scala 酸洗是否适用于 Scala 2.11？
有没有办法在 Scala 2.11 中使用 scala-pickling？我在 sonatype 存储库中尝试了唯一的 scala-pickling_2.11 工件，但它似乎不起作用。我收到消息:
scala - 如何从 Scala 本身获取 Scala 版本？
这与命令行编译器选项无关。如何以编程方式获取代码内的 Scala 版本？或者，Eclipse Scala 插件 v2 在哪里存储 scalac 的路径？最佳答案这无需访问 scala-compi
scala - 避免 Scala 内存泄漏 - Scala 构造函数
我正在阅读《Scala 编程》一书，并在第 6 章中的类 Rational 实现中遇到了一些问题。这是我的 Rational 类的初始版本(基于本书) class Rational(numerato
scala - 是否有必要在新的 scala 项目中添加我的自定义 scala 库依赖项？
我是 Scala 新手，我正在尝试开发一个使用自定义库的小项目。我在库内创建了一个mysql连接池。这是我的库的build.sbt organization := "com.learn" name :
scala - 如何在编译 Scala 文件之前在 SBT Build.scala 中运行 Scala 代码？
我正在尝试运行一些 Scala 代码，只是暂时打印出“Hello”，但我希望在 SBT 项目中编译 Scala 代码之前运行 Scala 代码。我发现在 build.sbt 中有以下工作。 compi
scala - maven Scala 插件默认使用什么 Scala 版本？
Here链接到 maven Scala 插件使用。但没有提到它使用的究竟是什么 Scala 版本。我创建了具有以下配置的 Maven Scala 项目: org.scala-tools
scala - Scala 上的类型不匹配用于理解 : scala. concurrent.Future
我对 Scala 还很陌生，请多多包涵。我有一堆包裹在一个大数组中的 future 。 future 已经完成了查看几 TB 数据的辛勤工作，在我的应用程序结束时，我想总结上述 future 的所有结
scala - 带有 scala 宏的非 scala 源位置
我有一个 scala 宏，它依赖于通过包含其位置的静态字符串指定的任意 xml 文件。 def myMacro(path: String) = macro myMacroImpl def myMacr
scala - 缺少扩展函数的参数类型 (Scala)
这是我的功能: def sumOfSquaresOfOdd(in: Seq[Int]): Int = { in.filter(_%2==1).map(_*_).reduce(_+_) } 为什么我
scala - Scala 中两个时间戳之间的秒数差异
这个问题在这里已经有了答案: Calculating the difference between two Java date instances (45 个答案) 关闭 5 年前。所以我有一个这

qq735679552

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

DataFrame:通过SparkSql将scala类转为DataFrame的方法