gpt4 book ai didi

java - 如何使用Spark数据帧将csv数据加载到配置单元中?

转载 作者:行者123 更新时间:2023-12-02 21:04:54 27 4
gpt4 key购买 nike

我正在尝试将数据从csv文件加载到Hive。我正在使用spark的JAVA API来做到这一点。我想知道如何使用spark数据帧在 hive 中加载数据。
这是我尝试使用JSON进行的操作:

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.SQLContext;
public class first {
public static void main (String[] args)
{
String inputFileName = "samples/big.txt" ;
String outputDirName = "output" ;

SparkConf conf = new SparkConf().setAppName("org.sparkexample.WordCount").setMaster("local");
JavaSparkContext context = new JavaSparkContext(conf);
@SuppressWarnings("deprecation")
SQLContext sc = new SQLContext(context);
DataFrame input = sc.jsonFile(inputFileName);
input.printSchema();
}
}

但是不知道如何使用csv来实现。我对databricks提供的Spark-csv有一些了解。
请让我知道我该怎么做。

最佳答案

在spark 2.x.x上内置了csv(无需软件包)
尝试这样阅读:

SparkSession spark = SparkSession
.builder()
.appName("org.sparkexample.WordCount")
.master("local[*]") .
.enableHiveSupport()
.getOrCreate();
DataFrame input = spark.read.csv(inputFileName)

您还可以添加选项,例如:
DataFrame input = spark.read.option("header","true").csv(inputFileName)

会将第一行视为标题,并相应地给出列名

关于java - 如何使用Spark数据帧将csv数据加载到配置单元中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42268121/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com