gpt4 book ai didi

python - "' DataFrame ' object has no attribute ' 尝试应用 lambda 以创建新列时应用 '"

转载 作者:行者123 更新时间:2023-12-04 16:44:48 30 4
gpt4 key购买 nike

我打算在 Pandas DataFrame 中添加一个新列,但我遇到了一个奇怪的错误。

新列应该是对现有列的转换,这可以通过在字典/ HashMap 中进行查找来完成。

# Loading data
df = sqlContext.read.format(...).load(train_df_path)

# Instanciating the map
some_map = {
'a': 0,
'b': 1,
'c': 1,
}

# Creating a new column using the map
df['new_column'] = df.apply(lambda row: some_map(row.some_column_name), axis=1)

这会导致以下错误:

AttributeErrorTraceback (most recent call last)
<ipython-input-12-aeee412b10bf> in <module>()
25 df= train_df
26
---> 27 df['new_column'] = df.apply(lambda row: some_map(row.some_column_name), axis=1)

/usr/lib/spark/python/pyspark/sql/dataframe.py in __getattr__(self, name)
962 if name not in self.columns:
963 raise AttributeError(
--> 964 "'%s' object has no attribute '%s'" % (self.__class__.__name__, name))
965 jc = self._jdf.apply(name)
966 return Column(jc)

AttributeError: 'DataFrame' object has no attribute 'apply'

其他可能有用的信息: * 我正在使用 Spark 和 Python 2。

最佳答案

您使用的语法适用于 pandas DataFrame。要为 spark DataFrame 实现此目的,您应该使用 withColumn() 方法。这适用于广泛的定义明确的DataFrame functions ,但是对于用户定义的映射函数来说要复杂一些。

一般情况

为了定义一个udf,你需要指定输出数据类型。例如,如果你想应用一个返回 string 的函数 my_func,你可以创建一个 udf,如下所示:

import pyspark.sql.functions as f
my_udf = f.udf(my_func, StringType())

然后您可以使用 my_udf 创建一个新列,例如:

df = df.withColumn('new_column', my_udf(f.col("some_column_name")))

另一种选择是使用 select:

df = df.select("*", my_udf(f.col("some_column_name")).alias("new_column"))

具体问题

使用 udf

在您的特定情况下,您希望使用字典来翻译 DataFrame 的值。

这是一种为此目的定义 udf 的方法:

some_map_udf = f.udf(lambda x: some_map.get(x, None), IntegerType())

请注意,我使用 dict.get() 是因为您希望您的 udf 对不良输入具有鲁棒性。

df = df.withColumn('new_column', some_map_udf(f.col("some_column_name")))

使用 DataFrame 函数

有时使用 udf 是不可避免的,但只要有可能,通常首选使用 DataFrame 函数。

这是一个不使用 udf 来做同样事情的选项。

诀窍是遍历 some_map 中的项目以创建 pyspark.sql.functions.when() 的列表功能。

some_map_func = [f.when(f.col("some_column_name") == k, v) for k, v in some_map.items()]
print(some_map_func)
#[Column<CASE WHEN (some_column_name = a) THEN 0 END>,
# Column<CASE WHEN (some_column_name = c) THEN 1 END>,
# Column<CASE WHEN (some_column_name = b) THEN 1 END>]

现在您可以使用 pyspark.sql.functions.coalesce()在选择内:

df = df.select("*", f.coalesce(*some_map_func).alias("some_column_name"))

这是因为如果条件不满足,when() 默认返回 null,而 coalesce() 会选择第一个非- 它遇到的空值。由于 map 的键是唯一的,因此最多有一列是非空的。

关于python - "' DataFrame ' object has no attribute ' 尝试应用 lambda 以创建新列时应用 '",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50686616/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com