python - 获取 TypeError ("StructType can not accept object %r in type %s"% (object, type(obj)))-6ren

python - 获取 TypeError ("StructType can not accept object %r in type %s"% (object, type(obj)))

转载作者：太空宇宙更新时间：2023-11-03 15:48:29

24

4

我正在创建如下所示的 spark session (spark 版本 2.2.1)

SparkS = SparkSession.builder\
    .appName("Test")\
    .master("local[*]")\
    .getOrCreate()

然后像下面这样创建sparkcontext

raw_data = SparkS\
    .sparkContext\
    .textFile("C:\\Users\\...\\RawData\\nasdaq.csv")

出于验证目的，我使用以下方式打印数据:

print(raw_data.take(3))

输出为

['43084,6871.549805,6945.819824,6871.450195,6936.580078,6936.580078,3510420000', '43087,6980.399902,7003.890137,6975.540039,6994.759766,6994.759766,2144360000', '43088,6991.25,6995.879883,6951.490234,6963.850098, 6963.850098,2071060000']

现在我通过定义如下模式将 RDD 转换为数据帧:

schema = StructType().add("date", StringType())\
                     .add("open", StringType())\
                     .add("high", StringType())\
                     .add("low", StringType())\
                     .add("close", StringType())\
                     .add("adj_close", StringType())\
                     .add("volume", StringType())

geioIP = SparkS.createDataFrame(raw_data,schema)
print(geioIP)

输出是:

DataFrame[date: string, open: string, high: string, low: string, close: string, adj_close: string, volume: string]

到目前为止一切顺利，但问题是当我调用 geioIP.show(2) 时，它给了我一个错误

18/01/23 12:58:48 ERROR Executor: Exception in task 0.0 in stage 1.0 (TID 1)
org.apache.spark.api.python.PythonException: Traceback (most recent call last):
  File "C:\spark-2.2.1-bin-hadoop2.7\python\lib\pyspark.zip\pyspark\worker.py", line 177, in main
  File "C:\spark-2.2.1-bin-hadoop2.7\python\lib\pyspark.zip\pyspark\worker.py", line 172, in process
  File "C:\spark-2.2.1-bin-hadoop2.7\python\lib\pyspark.zip\pyspark\serializers.py", line 268, in dump_stream
    vs = list(itertools.islice(iterator, batch))
  File "C:\Users\rajnish.kumar\AppData\Local\Programs\Python\Python36\lib\site-packages\pyspark\sql\session.py", line 520, in prepare
    verify_func(obj, schema)
  File "C:\spark-2.2.1-bin-hadoop2.7\python\lib\pyspark.zip\pyspark\sql\types.py", line 1371, in _verify_type
    raise TypeError("StructType can not accept object %r in type %s" % (obj, type(obj)))
TypeError: StructType can not accept object '43084,6871.549805,6945.819824,6871.450195,6936.580078,6936.580078,3510420000' in type <class 'str'>

经过这个 link ，我所做的是将所有 csv 数据转换为文本格式，但我仍然遇到上述问题。

最佳答案

问题是 RDD 中的每一行都是一个字符串(即一列)，而您的模式包含 7 列。在您使用操作(如 show)之前，RDD 实际上并未转换为数据帧，这就是它不会立即崩溃的原因。

由于您希望将数据放在数据框中，最简单的解决方案是在开始时将数据作为数据框读取:

geioIP = SparkS.read.csv("C:\\Users\\...\\RawData\\nasdaq.csv", schema=schema)

或者如果您想继续使用 RDD 和 createDataFrame，您可以使用 split 函数(如果有空格，可以使用 strip ).

raw_data = raw_data.map(lambda x: [c.strip() for c in x.split(',')])
geioIP = SparkS.createDataFrame(raw_data,schema)

关于python - 获取 TypeError ("StructType can not accept object %r in type %s"% (object, type(obj)))，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48396550/

24

4

0

文章推荐： python - 在 matplotlib 中更改图例中的标记

文章推荐： python - 从大型存储库到文件的关键字匹配

文章推荐： php - 使用 REST SDK 的 PayPal In-Context Checkout

javascript - 插入数组后输出[Obj Obj]、[Obj Obj]
我正在尝试创建键值对并推送到数组，但我得到的只是 [Obj Obj]、[Obj Obj]。我创建了一个传递名称和值的函数，用于将键和值分配给 JavaScript 对象。这是我的代码。不确定我错过了什
javascript - 访问值的语法 obj.obj.key 和 obj[obj].key 有什么区别？
似乎在 for 循环的上下文中，关于对象的语法发生了变化。为什么 console.log() 不应该运行相同的东西？第一个按预期运行，第二个呈现错误“steve is not defined”: v
测试变量存在的 Javascript 多重赋值 : var obj = obj = obj || {}
在 Ady Osmani 的 blog post关于 js 中的命名空间，他提到了 5 个常见做法来测试先前定义的命名空间/对象是否存在以防止覆盖。我在这里复制我关注的 3 个: var myAppl
C++:调用 OBJ、OBJ&、const OBJ& 时实现不同的方法
有没有办法(我怀疑它涉及继承和多态)来区分OBJ o, OBJ& o, const OBJ& o？我希望在 3 个不同的程序中使用相同的代码，并使用相同的方法名称调用不同的方法。 int main()
c# - 正则表达式拆分 obj.method(obj.attr, obj.attr2)
我正在寻找一个正则表达式来分割这种内容: obj.method(obj.attr,obj.attr2) 我希望拆分返回一个数组: ["obj", "method(obj.attr, obj.attr2
javascript - 在 javascript 中， `var Obj = Obj || {}` 或 `if (Obj === ' 哪个更好 undefined' ||类型 Obj !== 'object' )`
我想知道这些方法中哪种更好: var Obj = Obj || {}; 或 if (Obj === undefined || typeof Obj !== 'object') { Obj = {}
javascript - 为什么 obj.a = ( obj.a || [] ).push( 10 ) 使 obj.a 成为类型编号
我正在尝试将一个值推送到数组的属性，如下所示 var obj = {}; obj.a = (obj.a || []).push(10); console.log( typeof obj.a );
javascript - 使 `obj.someMethod()` 可用作 `obj()`，而不阻止 `obj` 表现为正常实例
为了避免误解，我们首先要就某些词语的含义达成一致。以下含义并非普遍接受的含义，我仅建议将它们作为此问题的背景。 function -- Function 的一个实例。它有一个与其关联的过程。 obje
javascript - obj == 'undefined' 或 obj === 'undefined' 或 obj == null 或全部
我总是不确定哪个是正确的以及该使用哪个。通常我会进行(obj == null)检查。我认为最好直接问。我应该使用以下哪一项: if (obj == null) { alert(
python - 使用 deepcopy 创建一个新的 obj，但新的 obj 与旧的 obj 共享变量
我正在处理一些使用 pygraph 模块的类，当我使用 add_node() 方法时，它总是出现“node xxx already in graph”。所以我尝试使用 deepcopy() 创建一个新
javascript - if (obj !== obj) 做了什么？
在 this page您可以看到以下示例，了解如何实现数组的indexOf: if (!Array.prototype.indexOf) { Array.prototype.indexOf = f
javascript - (obj || {}) 与对象(obj)
(1) 和 (2) 之间是否存在任何重要差异(语义、性能相关等)？ var obj = obj || {}; var obj = Object(obj); 上下文。第一个是我在 Django 的模板和
javascript - obj !== obj 什么时候可以为真？
我想知道 obj !== obj 什么时候可以为真？这是我在书上看到的一行代码，我很纳闷。 var result = class2type[(obj == null || obj !== obj)]
javascript - 为什么使用这个 obj.method.call(obj, arg) 而不是 obj.method(arg)？
我有时会看到这种模式...... obj.method.call(obj, arg) 我不明白为什么它不同于... obj.method(arg) 为什么要使用第一种模式？我的天啊，似乎引起了很
javascript - obj.func(arg) 和 obj.func.bind(obj, arg) 之间的区别
我刚刚在一段 React 代码中发现了以下结构(名称已更改): 据我了解，bind 只是执行相应的函数，并将函数的 this 设置为第一个参数，并向其传递更多参数。由于 func 已经是我们想要的
javascript - Underscore.js _.isObject = function (obj) { return obj === Object(obj); };
当我们查看Underscore.js源码时，我们可以看到如下内容: _.isObject = function (obj) { return obj === Object(obj);
asp.net-mvc - 将文件 obj\Debug\build.force 复制到 obj\Release\Package\PackageTmp\obj\Debug\build.force 失败。找不到文件 'obj\Debug\build.force'
我在将项目发布到本地系统时收到此错误 Copying file obj\Debug\build.force to obj\Release\Package\PackageTmp\obj\Debug\bu
c# - 将 Linq 表达式 "obj => obj.Prop"转换为 "parent => parent.obj.Prop"
我有一个类型为 Expression> 的现有表达式;它包含类似 cust => cust.Name 的值. 我还有一个父类，其字段类型为 T .我需要一个接受上述作为参数并生成一个以父类 ( TMo
c++ - Makefile 中 $(objs) : %. o : %. cpp 和 $(objs) : $(objs:. o=.cpp) 之间有什么区别
我在当前目录中有 add.c sub.c 并通过 makefile 编译它们。我做了以下事情: program 1: objs=$(patsubst %.cpp, %.o, $(wildcard *
c++ - C++ 中的 Obj x = Obj(n) 和 Obj x(n) 有什么区别？
这个问题在这里已经有了答案: Is there a difference between copy initialization and direct initialization? (9 个回答)

首页

博学

6Ren·AI

商城

python - 获取 TypeError ("StructType can not accept object %r in type %s"% (object, type(obj)))