apache-spark - IllegalArgumentException : Column must be of type struct<type:tinyint,大小:int,索引:array<int>,值:array<double>> but was actually double.'-6ren

apache-spark - IllegalArgumentException : Column must be of type struct,值:array> but was actually double.'

转载作者：行者123 更新时间：2023-12-03 15:27:36

28

4

我有一个带有多个分类列的数据框。我正在尝试使用两列之间的内置函数查找卡方统计量:

from pyspark.ml.stat import ChiSquareTest

r = ChiSquareTest.test(df, 'feature1', 'feature2')

但是，它给了我错误:

IllegalArgumentException: 'requirement failed: Column feature1 must be of type struct<type:tinyint,size:int,indices:array<int>,values:array<double>> but was actually double.'

feature1的数据类型为:

feature1: double (nullable = true)

您能在这方面帮助我吗？

最佳答案

spark-ml不是典型的统计资料库。它非常面向ML。因此，它假定您将要在标签和一个要素或一组要素之间运行测试。
因此，类似于训练模型时，您需要根据标签组装要测试的功能。
对于您的情况，您可以按以下方式组装feature1:

from pyspark.ml.stat import ChiSquareTest
from pyspark.ml.feature import VectorAssembler

data = [(1, 2), (3, 4), (2, 1), (4, 3)]
df = spark.createDataFrame(data, ['feature1', 'feature2'])
assembler = VectorAssembler().setInputCols(['feature1']).setOutputCol('features')

ChiSquareTest.test(assembler.transform(df), 'features', 'feature2').show(false)

以防万一，scala中的代码:

import org.apache.spark.ml.stat.ChiSquareTest
import org.apache.spark.ml.feature.VectorAssembler

val df = Seq((1, 2, 3), (1, 2, 3), (4, 5, 6), (6, 5, 4))
    .toDF("features", "feature2", "feature3")
val assembler = new VectorAssembler()
    .setInputCols(Array("feature1"))
    .setOutputCol("features")

ChiSquareTest.test(assembler.transform(df), "features", "feature2").show(false)

关于apache-spark - IllegalArgumentException : Column must be of type struct<type:tinyint,大小:int,索引:array<int>,值:array<double>> but was actually double.'，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61056160/

28

4

0

文章推荐： r - 分层(分类)数据到树状图

文章推荐： angular - 如何在 Angular 9 中动态导入语言环境？

文章推荐： azure - 如何检查 Azure Blob Storage V12 中是否存在容器

文章推荐： amazon-web-services - AWS Lambda HTTP API网关集成无法实现CORS

arrays - 冷聚变 8 : Array of structs to struct of structs
我有一个数组 items[] items[] 中的每一项都是一个结构体。 item 有键 id、date、value(即 item.id、item.date、item.value) 我想使用 Stru
[Array of Struct in [Array of Struct in [Array of Struct ]]] 中的结构体动态数组
我想存储 100 名员工。 RollNo，姓名，工资，时间(各种数据，我无法在这里解释，但你可以看下面的代码片段来理解 main() { struct day { int hour
c++ - typedef struct 与 struct - ‘struct' 的存储大小未知
这个问题在这里已经有了答案: storage size of ‘names’ isn’t known (3 个答案) 关闭 5 年前。我正在尝试蓝牙编程，遇到了这个我不明白的问题。基本上，当我使用
C struct->struct->struct->element(通常)段错误
这是一个奇怪的事情: 我有一个结构，它包含指向相同类型结构的指针和指向其他类型结构的指针，以及一些其他值。 struct animal { struct animal * father;
C指针问题: &(*struct->struct)
我有一个结构定义如下(名称不同) struct str1 { int field1; struct str2; } 我在一个函数中有一个*str1。我想要一个指向 str2 的指针。所以
c - struct { ... } 和 struct { union { struct { ... } } } 有什么区别？
DISK_DETECTION_INFO is defined as有什么原因吗？ typedef struct _DISK_DETECTION_INFO { DWORD Size
尝试保存字节顺序时的 Python struct.pack() 'struct.error: bad char in struct format'
我正在尝试打包一个字符串和一个字符串的长度。 fmt = '
swift 4 : struct in struct
我在创建结构时遇到问题。我的结构: public struct Device: Codable { let data: DeviceData let meta: Meta? } pu
struct - 如何为 Struct 成员赋值？
struct Item { var name:String? var type:String? var value:Int? var tag:Int? } ... ..
struct - 星号(* struct)符号在golang中是什么意思
// NewReaderSize returns a new Reader whose buffer has at least the specified 43 // size. If the ar
C++:根据 struct 的整数之一对 vector (其中 struct 有 2 个整数)进行排序
这个问题在这里已经有了答案: Sorting a vector of custom objects (14 个答案) 关闭 3 年前。在下面的 C++ 片段中，如何基于 TwoInts 结构中的
c++ - struct S { int align; 之间的区别}; (在 struct 关键字之后命名)和 struct { int align; } S; (结构定义后的名称)
#include struct Header { unsigned long long int alignment; }; int main(void) { struct Heade
c - struct 中带有 struct 参数的函数指针
我有一个目前看起来像这样的结构(缩写为仅显示基本部分): typedef struct { uint32_t baudrate; ... some other internally u
c# - Struct inside Struct，能够改变内部Struct类型
对此没有太多解释，这就是我所拥有的: public struct PACKET_HEADER { public string computerIp; publi
Rust:为什么在 struct 中借用引用会借用整个 struct？
我有以下代码: struct MyStruct{ data: &'a str, } fn get(S: &'a MyStruct) -> &'a str{ S.data } fn se
c - struct 内部的 sizeof struct
struct S1 { char c; int i; }; struct S3 { char c1; struct S1 s; double c2; }; 我正
struct - 有没有办法隐藏 Swift Struct 的默认初始化程序？
我有一个名为 Parameter 的协议(protocol): protocol Parameter { var name: String { get } var unit: Unit
c - "struct inside struct"中的限制
有 2 个 struct 定义 A 和 A。我知道 struct A 可以包含指向 struct A 的 POINTER 但我不明白为什么 struct A 不能包含struct A(不是指针) 最佳
Rust:为什么在 struct 中借用引用会借用整个 struct？
我有以下代码: struct MyStruct{ data: &'a str, } fn get(S: &'a MyStruct) -> &'a str{ S.data } fn se
struct - 你如何获得 struct-copy 来创建一个与原始类型相同的结构？
为了说明这一点，这里有一个小的不可变结构和一个更新它的函数: (struct timeseries (variable observations) #:transparent) (define (ad

首页

博学

6Ren·AI

商城

apache-spark - IllegalArgumentException : Column must be of type struct,值:array> but was actually double.'