java - 星火 java : Creating a new Dataset with a given schema-6ren

java - 星火 java : Creating a new Dataset with a given schema

转载作者：塔克拉玛干更新时间：2023-11-01 22:05:40

28

4

我有这段代码在 scala 中运行良好:

val schema = StructType(Array(
        StructField("field1", StringType, true),
        StructField("field2", TimestampType, true),
        StructField("field3", DoubleType, true),
        StructField("field4", StringType, true),
        StructField("field5", StringType, true)
    ))

val df = spark.read
    // some options
    .schema(schema)
    .load(myEndpoint)

我想用 Java 做一些类似的事情。所以我的代码如下:

final StructType schema = new StructType(new StructField[] {
     new StructField("field1",  new StringType(), true,new Metadata()),
     new StructField("field2", new TimestampType(), true,new Metadata()),
     new StructField("field3", new StringType(), true,new Metadata()),
     new StructField("field4", new StringType(), true,new Metadata()),
     new StructField("field5", new StringType(), true,new Metadata())
});

Dataset<Row> df = spark.read()
    // some options
    .schema(schema)
    .load(myEndpoint);

但这给了我以下错误:

Exception in thread "main" scala.MatchError: org.apache.spark.sql.types.StringType@37c5b8e8 (of class org.apache.spark.sql.types.StringType)

我的模式似乎没有任何问题，所以我真的不知道这里的问题是什么。

spark.read().load(myEndpoint).printSchema();
root
 |-- field5: string (nullable = true)
 |-- field2: timestamp (nullable = true)
 |-- field1: string (nullable = true)
 |-- field4: string (nullable = true)
 |-- field3: string (nullable = true)

schema.printTreeString();
root
 |-- field1: string (nullable = true)
 |-- field2: timestamp (nullable = true)
 |-- field3: string (nullable = true)
 |-- field4: string (nullable = true)
 |-- field5: string (nullable = true)

编辑:

这是一个数据示例:

spark.read().load(myEndpoint).show(false);
+---------------------------------------------------------------+-------------------+-------------+--------------+---------+
|field5                                                         |field2             |field1       |field4        |field3   |
+---------------------------------------------------------------+-------------------+-------------+--------------+---------+
|{"fieldA":"AAA","fieldB":"BBB","fieldC":"CCC","fieldD":"DDD"}  |2018-01-20 16:54:50|SOME_VALUE   |SOME_VALUE    |0.0      |
|{"fieldA":"AAA","fieldB":"BBB","fieldC":"CCC","fieldD":"DDD"}  |2018-01-20 16:58:50|SOME_VALUE   |SOME_VALUE    |50.0     |
|{"fieldA":"AAA","fieldB":"BBB","fieldC":"CCC","fieldD":"DDD"}  |2018-01-20 17:00:50|SOME_VALUE   |SOME_VALUE    |20.0     |
|{"fieldA":"AAA","fieldB":"BBB","fieldC":"CCC","fieldD":"DDD"}  |2018-01-20 18:04:50|SOME_VALUE   |SOME_VALUE    |10.0     |
 ...
+---------------------------------------------------------------+-------------------+-------------+--------------+---------+

最佳答案

使用 Datatypes 类中的静态方法和字段代替构造函数在 Spark 2.3.1 中为我工作:

    StructType schema = DataTypes.createStructType(new StructField[] {
            DataTypes.createStructField("field1",  DataTypes.StringType, true),
            DataTypes.createStructField("field2", DataTypes.TimestampType, true),
            DataTypes.createStructField("field3", DataTypes.StringType, true),
            DataTypes.createStructField("field4", DataTypes.StringType, true),
            DataTypes.createStructField("field5", DataTypes.StringType, true)
    });

关于java - 星火 java : Creating a new Dataset with a given schema，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51635553/

28

4

0

文章推荐： Java groupingBy : sum multiple fields

文章推荐： java - 在这种情况下如何正确使用泛型？

文章推荐： java - Vaadin 流 : Difference between Component and Element

文章推荐： java - 使用 Stream 映射单个对象

javascript - (new { htmlAtributes = new { }) 和 (new { }) 有什么区别
我知道它们是匿名类型，但我不明白 Razor 语法。在一些文档中，我找到了这样的示例: @Html.Label("Hello", new { htmlAtributes = new { id = "h
new Object([])/new Object(new Array()) 的 JavaScript 构造函数
关于:new Object(new Array()) 有一个相当基本的问题，我自己确实无法给出答案，我正在寻求建议: 在js中实例化对象时使用如下方法: var obj = new Object();
eclipse - "New Folder"、 "New Source Folder"和 "New Package"之间的区别？
在eclipse中右击项目时，“新建文件夹”、“新建源文件夹”和“新建包”有什么区别？他们似乎都在做同样的事情，引用文献并没有说太多。谢谢最佳答案新建文件夹在项目中创建一个新文件夹。新建源文
bolt-cms - New page、New entry 和 New Showcase 的区别
几天来我一直在测试 bolt-cms，我试图了解它是如何工作的。我想知道新页面、新条目和新展示柜之间有什么区别。我已阅读 this它并没有填补空白。最佳答案 Pages、Entries 和 Sh
java - new LinkedList<>(new LinkedList<>()) 和 new LinkedList...的区别，添加
更新:感谢所有的回答。我发现的最干净的解决方案是这个: if ( k(Arrays.asList(new LinkedList<>())); 我有一个递归方法，可以从列表中生成所有“n 选 k”组合。
C++ new/new[]，它是如何分配内存的？
我现在想知道这些指令是如何分配内存的。例如，如果我得到代码怎么办: x = new int[5]; y = new int[5]; 如果分配了这些，它在 RAM 中的实际情况如何？是为每个变量保留整
java - new PrintWriter(new BufferedWriter(new FileWriter ("output.txt", true))) 不打印
我希望将其写入output.txt而不清除它 - 只是附加到末尾。但是，当我使用以下两种方法时: public void addEmails(ArrayList emails){ for (i
c++ - operator new(n) 与 new unsigned char[n] 用于放置 new
我正在分配内存，稍后将用于构造具有放置 new 的对象。我应该使用 operator new(n)，还是应该使用 new unsigned char[n]？为什么？最佳答案因素: new[] 必须
c++ - new T() 等价于 `mem = operator new(sizeof(T)); new(mem)T` 吗？
基本上，我的问题是以下代码是否有效。 void* mem = operator new(sizeof(T)); T* instance = new(mem) T; delete instance; 如
c# - new Thread(void Target()) 和 new Thread(new ThreadStart(void Target())) 有什么区别？
很抱歉，如果之前有人问过这个问题，但我想就以下两种用法之间的区别提供一个简明的答案。 VS 似乎将它们都接受为有效代码。 private static void doSomeWork() { /
javascript - 无法理解Javascript new Array( new Array(5,4,3,2,1,0),new Array())
请告诉我这段代码在做什么，它是否创建多维数组(我认为不是)？代码片段.. var hanoi_peg = new Array( new Array( 5, 4, 3, 2, 1,
java - Java 中 new String ("X") 和 new String ("X") + new String ("Y") 之间字符串初始化的区别
这个问题在这里已经有了答案: String intern() behaviour (4 个答案) When should we use intern method of String on Stri
javascript - 为什么使用 {} 而不是 new Object() 并使用 [] 而不是 new Array() 和 true/false 而不是 new Boolean()？
许多人说您应该避免使用 new Object、new Array()，而是使用 {}。 [] 和真/假。使用字面量构造来获取对象或数组的新实例而不是使用 new 有什么好处？我知道 Crockfor
c++ - 避免由 new(new[]) 引起的内存泄漏
我正在开发一个存在内存泄漏的开源库。该库是围绕 boost::asio 构建的数据流服务。服务器端使用堆内存管理系统，该系统提供内存以容纳有限数量的 samples，同时它们等待通过 tcp 连接被推
c++ - 内存通过 new[] 泄漏而无需调用 new
我从以下函数中得到内存泄漏: int ReadWrite(int socket, char *readfile) { FILE *rf = NULL; rf = fopen(readfile,
c++ - new 的内存是否必须来自 operator new？
在考虑类似的事情时 auto x = new T; 标准是否强制要求内存必须来自operator new——类特定的还是全局的？也就是说，如果缺少特定于类的 operator new，则没有办法从除全
c++ - 创建对象 : A. new 还是 new A？
只是出于好奇:为什么 C++ 选择 a = new A 而不是 a = A.new 作为实例化对象的方式？后者不是更像是面向对象的吗？最佳答案 Just out of curiosity: Why
c++ - new 或 new[] 运算符
考虑以下代码: typedef SomeType type_t[2]; SomeType * arr1 = new type_t; //new or new[] ??? type_t * arr2
c++ - "new"运算符和 "new"函数之间的区别
这个问题在这里已经有了答案: Difference between 'new operator' and 'operator new'? (8 个答案) 关闭 8 年前。面试题:"new"运算符和
安卓用户界面 : New activity or new layout?
我正在为一个应用程序设计界面，以在 TableLayout 中显示从数据库中提取的一些数据。现在，默认 View 是纵向的，它由一个下拉菜单和一个三列的表格组成。当用户切换到横向时，微调器及其选项可以

首页

博学

6Ren·AI

商城

java - 星火 java : Creating a new Dataset with a given schema