- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试从 pandas 数据帧创建 Spark 数据帧。我正在基于由数组的结构类型和结构字段组成的模式构建模式。以下是示例架构:
mySchema = (
StructType(
[
StructField("country_code", StringType(), True),
StructField("unit_id", StringType(), True),
StructField("date", DateType(), True),
StructField("health_category_car_door", StringType(), True),
StructField("reason_car", StringType(), True),
StructField("reason_landing", StringType(), True),
StructField(
"reasonDetails_car_door",
StructType(
[
StructField(
"car_doors",
ArrayType(
StructType(
[
StructField("opmode", StringType(), True),
StructField("count", IntegerType(), True),
StructField(
"window_length", IntegerType(), True
),
]
),
True,
),
True,
),
StructField("landing_doors", StringType(), True),
]
),
True,
),
]
),
StructField("health_category_landing_door", StringType(), True),
StructField("num_yellow_preds_in_last_14_days", IntegerType(), True),
StructField(
"reasonDetails_landing_door",
ArrayType(
StructType(
[
StructField("id", StringType(), True),
StructField(
"causes",
ArrayType(
StructType(
[
StructField("opmode", StringType(), True),
StructField("count", IntegerType(), True),
StructField("window_length", IntegerType(), True),
]
),
True,
),
True,
),
StructField(
"num_yellow_preds_in_last_14_days", IntegerType(), True
),
]
),
True,
),
),
)
sparkDF = spark.createDataFrame(df_new, mySchema)
sparkDF.printSchema()
它给出了错误。
/databricks/spark/python/pyspark/sql/session.py in createDataFrame(self, data, schema, samplingRatio, verifySchema)
938 elif isinstance(schema, (list, tuple)):
939 # Must re-encode any unicode strings to be consistent with StructField names
--> 940 schema = [x.encode("utf-8") if not isinstance(x, str) else x for x in schema]
941
942 try:
在调试时,我确实了解架构需要按照文章(Pyspark error on creating dataframe: 'StructField' object has no attribute 'encode')中所述进行更新,但无法理解我需要如何更新架构。任何人都可以指导吗?
最佳答案
我相信你使用df = pd.DataFrame(json.loads(<your_data>))
基于这些数据创建 pandas 数据框并将其转换为 Spark 提供架构。
我已经尝试过这个,即使我遇到了和你一样的错误。
出现此错误的原因是架构应为 StructType
有StructField
.
在你的模式中,如果你清楚地观察到一些StructField
已超出 StructType
.
您可以使用下面的架构,我尝试查看 pandas 数据框中的数据。
在这里,您可以看到 landing_doors 、 car_doors 是行名称,而 reasonDetails_car_door 、 reasonDetails_landing_door 是列表类型或数组。
所以,我修改了架构如下并尝试,它成功了。
import pandas as pd
import json
from pyspark.sql.types import StructType, StructField, StringType, IntegerType,ArrayType,DateType,MapType,LongType
data = '{"country_code":"xxx","unit_id":"xxx","date":1691280000000,"health_category_car_door":"xxx",
"num_yellow_preds_in_last_14_days":10,
"reasonDetails_car_door":{"landing_doors":null,"car_doors":[{"opmode":"xxx","count":10,"window_length":1}]},"reason_car":"High count","health_category_landing_door":"xxxx",
"reasonDetails_landing_door":{"car_doors":null,"landing_doors":[{"id":"xx","causes":[{"opmode":"xxx","count":1,"window_length":14},{"opmode":"xxx","count":10,"window_length":1}],"num_yellow_preds_in_last_14_days":1}]},
"reason_landing":"High count."}'
sc = StructType([
StructField('country_code', StringType(), True),
StructField('unit_id', StringType(), True),
StructField('date', LongType(), True),
StructField('health_category_car_door', StringType(), True),
StructField('num_yellow_preds_in_last_14_days', LongType(), True),
StructField('reasonDetails_car_door',
ArrayType(
StructType([
StructField('count', LongType(), True),
StructField('opmode', StringType(), True),
StructField('window_length', LongType(), True)]),True),True),
StructField('reason_car', StringType(), True),
StructField('health_category_landing_door', StringType(), True),
StructField('reasonDetails_landing_door',
ArrayType(
StructType([
StructField('causes',
ArrayType(
StructType([
StructField('count', LongType(), True),
StructField('opmode', StringType(), True),
StructField('window_length', LongType(), True)]),True),True),
StructField('id', StringType(), True),
StructField('num_yellow_preds_in_last_14_days', LongType(), True)]),True),True),
StructField('reason_landing', StringType(), True)])
json_data = json.loads(data)
sparkDF = spark.createDataFrame(pd.DataFrame(json_data),sc)
sparkDF.printSchema()
输出:
或者您可以在不使用 pandas 的情况下创建 Spark 数据框,并提供如下架构。
from pyspark.sql.types import StructType, StructField, StringType, IntegerType,ArrayType,DateType,MapType,LongType
mySchema = StructType([
StructField("country_code", StringType(), True),
StructField("unit_id", StringType(), True),
StructField("date", StringType(), True),
StructField("health_category_car_door", StringType(), True),
StructField("reason_car", StringType(), True),
StructField("reason_landing", StringType(), True),
StructField(
"reasonDetails_car_door",
MapType(StringType(),
ArrayType(StructType([
StructField("opmode", StringType(), True),
StructField("count", IntegerType(), True),
StructField("window_length", IntegerType(), True),]),True,)),True),
StructField("health_category_landing_door", StringType(), True),
StructField("num_yellow_preds_in_last_14_days", IntegerType(), True),
StructField("reasonDetails_landing_door",
MapType(StringType(),
ArrayType(StructType([
StructField("id", StringType(), True),
StructField("causes",ArrayType(StructType([
StructField("opmode", StringType(), True),
StructField("count", IntegerType(), True),
StructField("window_length", IntegerType(), True)]),True),True),
StructField("num_yellow_preds_in_last_14_days", IntegerType(), True)]),True)),)
])
json_data = json.loads(data)
sparkDF = spark.createDataFrame(data=[json_data], schema=mySchema)
display(sparkDF)
sparkDF.printSchema()
输出:
关于pandas - 属性错误: 'StructType' object has no attribute 'encode' ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/76919263/
关于 this页面,我看到以下代码: if ((attributes & FileAttributes.Hidden) == FileAttributes.Hidden) 但我不明白为什么会变成这样。
函数pthread_mutex_init允许您指定指向属性的指针。但是我还没有找到关于pthread属性是什么的很好的解释。我一直只是提供NULL。这个论点有用吗? 该文档,对于那些忘记它的人: PT
我们有一个 xml 节点“item”,其属性为“style”,即“Header1”。但是,这种风格可以改变。我们有一个名为 Header1 的属性集,它定义了它在 PDF 中的外观,通过 xsl:fo
我的任务是在用户点击它时从输入框中删除占位符并使标签可见。如果用户未在其中再次填写任何内容,请放回占位符并使标签不可见。 我可以隐藏它但不能重新分配它。我试过 element.setAttribute
我从文章中编写代码,并且有: public IActionResult Create([Bind(Include="Imie,Nazwisko,Stanowisko,Wiek")] Pracownik
你能给我解释一下以下属性吗? 1) [MonoTouch.Foundation.Register("SomeClass")] 这个属性是否只用于向IB注册类?以编程方式扩展 iOS 类时是否必须使用此
我正在编写一个 C++ 程序,在调试时我在执行以下函数: int CClass::do_something() { ... // I've put a breakpoint here } 我的 C
我已经在 polymer 0.5 中构建了我的应用程序。 现在我已经将它更新到 polymer 1.0。 对于响应式布局,我使用了一个布局属性,它使用 Polymer 0.5 中布局属性的自定义逻辑。
我是使用 Jade 的新手——到目前为止它很棒。 但是我需要发生的一件事是具有“itemscope”属性的元素: 我的 Jade 符是: header(itemscope, itemtype='ht
我正在研究一个厨师实现,有时在过去的地方使用了 attribute.set,attribute.default 会这样做。为了解决这个问题,我对 Chef 属性优先范式非常熟悉。我知道“正常”属性(使
我经常看到html data-attribute (s) 将特定值/参数添加到 html 元素,例如使用它们将按钮“链接”到要打开的模式对话框等的 Bootstrap。 现在,我看到一个几乎著名的
假设如下: def create_new_salt self.salt = self.object_id.to_s + rand.to_s end 为什么使用“ self ”更好。而不是实例变量“
根据我的理解,Backbone.js 模型的属性应该通过以下方式声明为有点私有(private)的成员变量 this.set({ attributeName: attributeValue }) //
我有一个看起来像下面的XML文档: ... ... ... ...
我正在实现一个 JSF 组件,需要有条件地添加一些属性。这个问题类似于之前的 JSF: p:dataTable with f:attribute results in "argument type m
我正在尝试将应用程序发布到 Android 电子市场,但出现以下错误: W/ResourceType(16964): No known package when getting value for r
抱歉这么具体的应用程序,但我注意到另一篇关于 Maya 开发的回答很好的帖子。 我刚刚为 Maya 编写了一个插件节点。它只是根据湍流函数杀死一堆粒子。湍流由许多可在属性编辑器中调整的属性驱动。 在属
我在 html 元素中的数据属性为 Update .它具有数据属性的 bool 值。 跟下面的元素Update有什么区别吗?因为数据属性用双引号引起来。 html是否支持 bool 值? 最佳答案 b
我正在尝试为企业库 5.0 的异常处理 block 创建自定义异常处理程序。据我了解,我需要使用属性开始上课“[ConfigurationElementType(typeof(CustomHandle
我找不到这两个选择器之间的区别。两者似乎都做同样的事情,即根据包含给定字符串的特定属性值选择标签。 对于 [attribute~=value] :http://www.w3schools.com/cs
我是一名优秀的程序员,十分优秀!