python - PySpark 中等效的 Scala 案例类是什么？-6ren

python - PySpark 中等效的 Scala 案例类是什么？

转载作者：太空狗更新时间：2023-10-29 17:42:43

26

4

您将如何在 PySpark 中使用和/或实现等效的案例类？

最佳答案

As mentioned通过 Alex Hall命名产品类型的真正等价物是 namedtuple。

不同于Row，在the other answer中建议，它有许多有用的属性:

具有明确的形状，可以可靠地用于结构模式匹配:

>>> from collections import namedtuple
>>>
>>> FooBar = namedtuple("FooBar", ["foo", "bar"])
>>> foobar = FooBar(42, -42)
>>> foo, bar = foobar
>>> foo
42
>>> bar
-42

对比行 are not reliable when used with keyword arguments :

>>> from pyspark.sql import Row
>>>
>>> foobar = Row(foo=42, bar=-42)
>>> foo, bar = foobar
>>> foo
-42
>>> bar
42

虽然如果用位置参数定义:

>>> FooBar = Row("foo", "bar")
>>> foobar = FooBar(42, -42)
>>> foo, bar = foobar
>>> foo
42
>>> bar
-42

顺序被保留。

定义适当的类型

>>> from functools import singledispatch
>>> 
>>> FooBar = namedtuple("FooBar", ["foo", "bar"])
>>> type(FooBar)
<class 'type'>
>>> isinstance(FooBar(42, -42), FooBar)
True

并且可以在需要类型处理的任何时候使用，尤其是对于单个:

>>> Circle = namedtuple("Circle", ["x", "y", "r"])
>>> Rectangle = namedtuple("Rectangle", ["x1", "y1", "x2", "y2"])
>>>
>>> @singledispatch
... def area(x):
...     raise NotImplementedError
... 
... 
>>> @area.register(Rectangle)
... def _(x):
...     return abs(x.x1 - x.x2) * abs(x.y1 - x.y2)
... 
... 
>>> @area.register(Circle)
... def _(x):
...     return math.pi * x.r ** 2
... 
... 
>>>
>>> area(Rectangle(0, 0, 4, 4))
16
>>> >>> area(Circle(0, 0, 4))
50.26548245743669

和multiple调度:

>>> from multipledispatch import dispatch
>>> from numbers import Rational
>>>
>>> @dispatch(Rectangle, Rational)
... def scale(x, y):
...     return Rectangle(x.x1, x.y1, x.x2 * y, x.y2 * y)
... 
... 
>>> @dispatch(Circle, Rational)
... def scale(x, y):
...     return Circle(x.x, x.y, x.r * y)
...
...
>>> scale(Rectangle(0, 0, 4, 4), 2)
Rectangle(x1=0, y1=0, x2=8, y2=8)
>>> scale(Circle(0, 0, 11), 2)
Circle(x=0, y=0, r=22)

结合第一个属性，可以在广泛的模式匹配场景中使用。 namedtuples 还支持标准继承和 type hints .

行不要:

>>> FooBar = Row("foo", "bar")
>>> type(FooBar)
<class 'pyspark.sql.types.Row'>
>>> isinstance(FooBar(42, -42), FooBar)  # Expected failure
Traceback (most recent call last):
...
TypeError: isinstance() arg 2 must be a type or tuple of types
>>> BarFoo = Row("bar", "foo")
>>> isinstance(FooBar(42, -42), type(BarFoo))
True
>>> isinstance(BarFoo(42, -42), type(FooBar))
True

提供高度优化的表示。与 Row 对象不同，元组不使用 __dict__ 并在每个实例中携带字段名称。因此，初始化速度可以提高一个数量级:

>>> FooBar = namedtuple("FooBar", ["foo", "bar"])
>>> %timeit FooBar(42, -42)
587 ns ± 5.28 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

与不同的 Row 构造函数相比:

>>> %timeit Row(foo=42, bar=-42)
3.91 µs ± 7.67 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
>>> FooBar = Row("foo", "bar")
>>> %timeit FooBar(42, -42)
2 µs ± 25.4 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

并且显着提高内存效率(处理大规模数据时非常重要的属性):

>>> import sys
>>> FooBar = namedtuple("FooBar", ["foo", "bar"])
>>> sys.getsizeof(FooBar(42, -42))
64

与等效的 Row 相比>

>>> sys.getsizeof(Row(foo=42, bar=-42))
72

最后，namedtuple 的属性访问速度提高了一个数量级:

>>> FooBar = namedtuple("FooBar", ["foo", "bar"])
>>> foobar = FooBar(42, -42)
>>> %timeit foobar.foo
102 ns ± 1.33 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)

与 Row 对象上的等效操作相比:

>>> foobar = Row(foo=42, bar=-42)
>>> %timeit foobar.foo
2.58 µs ± 26.9 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

最后但同样重要的是 namedtuples 在 Spark SQL 中得到了正确的支持

>>> Record = namedtuple("Record", ["id", "name", "value"])
>>> spark.createDataFrame([Record(1, "foo", 42)])
DataFrame[id: bigint, name: string, value: bigint]

总结:

很明显，Row 不能很好地替代 actual product type。，除非由 Spark API 强制执行，否则应避免使用。

还应该清楚的是，pyspark.sql.Row 并非旨在替代案例类，当您考虑这一点时，它直接等同于 org.apache.spark .sql.Row - 与实际产品相去甚远的类型，其行为类似于 Seq[Any](取决于子类，添加了名称)。 Python 和 Scala 实现都是作为外部代码和内部 Spark SQL 表示之间的有用但笨拙的接口(interface)而引入的。

另见:

不提真棒就太可惜了MacroPy由 Li Haoyi 开发及其端口 ( MacroPy3 )，由 Alberto Berti 提供:

>>> import macropy.console
0=[]=====> MacroPy Enabled <=====[]=0
>>> from macropy.case_classes import macros, case
>>> @case
... class FooBar(foo, bar): pass
... 
>>> foobar = FooBar(42, -42)
>>> foo, bar = foobar
>>> foo
42
>>> bar
-42

它具有一组丰富的其他功能，包括但不限于高级模式匹配和简洁的 lambda 表达式语法。

python dataclasses (Python 3.7+)。

关于python - PySpark 中等效的 Scala 案例类是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37147450/

26

4

0

文章推荐： c# - TreeView.DrawNode 的问题 - OwnerDrawText

文章推荐：跨多个组件实例的 Angular 2 全局变量

文章推荐： c# - 使用 .NET 重新启动 Windows 应用程序

文章推荐： json - Angular 2 : Getting data from json file not working

pyspark - 我想将数据框中的一列月份数字更改为月份名称(pyspark)
我在数据框中有一列月份数字，想将其更改为月份名称，所以我使用了这个: df['monthName'] = df['monthNumber'].apply(lambda x: calendar.mont
pyspark - pyspark 的控制台输入
Pyspark 中是否有一个 input() 函数，我可以通过它获取控制台输入。如果是，请详细说明一下。如何在 PySpark 中编写以下代码: directory_change = input("
pyspark - pyspark 中的数据类型验证
我们正在 pyspark 中构建数据摄取框架，并想知道处理数据类型异常的最佳方法是什么。基本上，我们希望有一个拒绝表来捕获所有未与架构确认的数据。 stringDf = sparkSession.cr
pyspark - pyspark 数据帧中数组的访问字段
我正在开发基于一组 ORC 文件的 spark 数据框的 sql 查询。程序是这样的: from pyspark.sql import SparkSession spark_session = Spa
pyspark - Pyspark 数据框中的填充
我有一个 Pyspark 数据框( 原始数据框 )具有以下数据(所有列都有字符串数据类型): id Value 1 103 2
pyspark - Pyspark + Redis远程服务器
我有一台配置了Redis和Maven的服务器然后我执行以下sparkSession spark = pyspark .sql .SparkSession .builder .master('loca
pyspark - pyspark 数据框的区分大小写的列删除操作？
从一些简短的测试来看，pyspark 数据帧的列删除功能似乎不区分大小写，例如。 from pyspark.sql import SparkSession from pyspark.sql.funct
pyspark - 将大型数组列拆分为多个列 - Pyspark
我有: +---+-------+-------+ | id| var1| var2| +---+-------+-------+ | a|[1,2,3]|[1,2,3]| | b|[2,
pyspark - pyspark 数据框的区分大小写的列删除操作？
从一些简短的测试来看，pyspark 数据帧的列删除功能似乎不区分大小写，例如。 from pyspark.sql import SparkSession from pyspark.sql.funct
pyspark - Pyspark 列的十分位数或其他分位数排名
我有一个带有多个数字列的 pyspark DF，我想为每一列根据每个变量计算该行的十分位数或其他分位数等级。这对 Pandas 来说很简单，因为我们可以使用 qcut 函数为每个变量创建一个新列，如
pyspark - pyspark.mllib 中 LabeledPoint 的类型转换错误，用于在 pyspark.ml 中使用线性回归模型
我有以下使用 pyspark.ml 包进行线性回归的代码。但是，当模型适合时，我在最后一行收到此错误消息: IllegalArgumentException: u'requirement failed
pyspark - 使用 PySpark 读取不带引号的多行字符串平面文件
我有一个由 | 分隔的平面文件(管道)，没有引号字符。示例数据如下所示: SOME_NUMBER|SOME_MULTILINE_STRING|SOME_STRING 23|multiline text
pyspark - 展平 PySpark 数组中的嵌套结构
给定如下模式: root |-- first_name: string |-- last_name: string |-- degrees: array | |-- element: struc
pyspark - 如何在数据帧的开头移动 pyspark 数据帧的特定列
我有一个 pyspark 数据框如下(这只是一个简化的例子，我的实际数据框有数百列): col1,col2,......,col_with_fix_header 1,2,.......,3 4,5,.
pyspark - 使用 pyspark 将特定单词删除到数据框中
我有一个数据框 +------+--------------------+-----------------+---- | id| titulo |tipo | formac
pyspark - 计数数组包含 PySpark 中每个类别的字符串的次数
我从 Spark 数组“df_spark”开始: from pyspark.sql import SparkSession import pandas as pd import numpy as np
pyspark - 在 Pyspark 中删除行
如何根据行号/行索引值删除 Pyspark 中的行值？我是 Pyspark(和编码)的新手——我尝试编码一些东西，但它不起作用。最佳答案您不能删除特定的列，但您可以使用 filter 或其别名
pyspark - 计算从列表 pyspark 引用的列的乘积
我有一个循环生成多个因子表的输出并将列名存储在列表中: | id | f_1a | f_2a | |:---|:----:|:-----| |1 |1.2 |0.95 | |2 |0.7
pyspark - 在 pyspark 中的案例总和
我正在尝试将 hql 脚本转换为 pyspark。我正在努力如何在 groupby 子句之后的聚合中实现 case when 语句的总和。例如。 dataframe1 = dataframe0.gro
pyspark - 获取数组 Pyspark 中的第一个元素
我想添加新的 2 列值服务 arr 第一个和第二个值但我收到错误: Field name should be String Literal, but it's 0; production_targe

首页

博学

6Ren·AI

商城

python - PySpark 中等效的 Scala 案例类是什么？