- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个具有以下架构的数据框:
root
|-- urlA: string (nullable = true)
|-- urlB: array (nullable = true)
| |-- element: struct (containsNull = true)
| | |-- distCol: double (nullable = true)
| | |-- url: string (nullable = true)
我想使用 UDF 访问结构中的元素,以便可以对 distCol 值进行排序并获取 distCol 最小(实际上是前 N 个)的 url(在 urlB 中)
输入:
+--------------------+---------------------------------+
| urlA| urlB|
+--------------------+---------------------------------+
| some_url|[[0.02, url_0], [0.03, url_1],...|
+--------------------+---------------------------------+
输出(理想情况下):
+--------------------+------------------------------------+
| urlA| urlB|
+--------------------+------------------------------------+
| some_url|[[url_best_score_0, url_best_0],...]|
+--------------------+------------------------------------+
我的udf:
def rank_url(row_url):
ranked_url = sorted(row_url[0], key=lambda x: x[0], reverse=False)[0:5]
return row_url
url_udf = udf(rank_url, ArrayType(StringType())
df = model.approxSimilarityJoin(pca_df, pca_df, 1.0).groupBy("datasetA.url").agg(collect_list(struct("distCol", "datasetB.url")).alias("urlB")).withColumn("urlB", url_udf("urlB"))
我想做类似的事情,但 row_url 并不能真正以这种方式访问。你有什么想法吗?
最佳答案
您的主要问题来自 UDF 输出类型以及访问列元素的方式。下面是解决方法,struct1
很关键。
from pyspark.sql.types import ArrayType, StructField, StructType, DoubleType, StringType
from pyspark.sql import functions as F
# Define structures
struct1 = StructType([StructField("distCol", DoubleType(), True), StructField("url", StringType(), True)])
struct2 = StructType([StructField("urlA", StringType(), True), StructField("urlB", ArrayType(struct1), True)])
# Create DataFrame
df = spark.createDataFrame([
['url_a1', [[0.03, 'url1'], [0.02, 'url2'], [0.01, 'url3']]],
['url_a2', [[0.05, 'url4'], [0.03, 'url5']]]
], struct2)
输入:
+------+------------------------------------------+
|urlA |urlB |
+------+------------------------------------------+
|url_a1|[[0.03, url1], [0.02, url2], [0.01, url3]]|
|url_a2|[[0.05, url4], [0.03, url5]] |
+------+------------------------------------------+
UDF:
# Define udf
top_N = 5
def rank_url(array):
ranked_url = sorted(array, key=lambda x: x['distCol'])[0:top_N]
return ranked_url
url_udf = F.udf(rank_url, ArrayType(struct1))
# Apply udf
df2 = df.select('urlA', url_udf('urlB'))
df2.show(truncate=False)
输出:
+------+------------------------------------------+
|urlA |rank_url(urlB) |
+------+------------------------------------------+
|url_a1|[[0.01, url3], [0.02, url2], [0.03, url1]]|
|url_a2|[[0.03, url5], [0.05, url4]] |
+------+------------------------------------------+
关于python - 将 UDF 应用于 StructType 数组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55956028/
我正在尝试创建一个 StructType在另一个 StructType ,但它只允许添加 StructField .我找不到任何添加 StructType 的方法到它。 如何创建 StructType
假设我有一个结构 public struct Foo { ... } 有什么区别吗 Foo foo = new Foo(); 和 Foo foo = default(Foo); ? 最佳答案
好像StructType保留顺序,所以两个 StructType包含相同的 StructField s 不被认为是等效的。 例如: val st1 = StructType( StructField(
如何解决这个问题? rdd.collect() //['3e866d48b59e8ac8aece79597df9fb4c'...] rdd.toDF() //Can not infer sch
我正在尝试构建用于数据库测试的架构,而 StructType 显然由于某种原因无法正常工作。我正在关注 tut,它不会导入任何额外的模块。 , NameError("name 'StructType'
在将 StructType 传递给架构方法时出现错误:TypeError: 'StructType' object is not callable。下面是代码: final_schema = Stru
这个问题已经有答案了: pyspark collect_set or collect_list with groupby (2 个回答) 已关闭 4 年前。 我正在尝试做一些看起来非常简单的事情,但不
使用 StructType structInstance = {}; 初始化结构的行为是什么?它只是使用默认构造函数和/或将所有成员数据初始化为 null 吗?有关 Vulkan 教程中的示例,请参阅
我是 spark 和 python 的新手,面临着从可应用于我的数据文件的元数据文件构建模式的困难。场景:数据文件的元数据文件(csv 格式),包含列及其类型:例如: id,int,10,"","",
spark.sql.types package 中有一个merge 方法: private[sql] def merge(that: StructType): StructType 它是私有(priv
我需要解析 JSON schema文件以创建 pyspark.sql.types.StructType。我找到了 scala library可以为我做这个。所以我这样调用它: f = open('pa
我有一个以 XML 形式出现的数据集,其中一个节点包含 JSON。 Spark 将其作为 StringType 读取,因此我尝试使用 from_json() 将 JSON 转换为 DataFrame。
如何使用 StructType 创建数据集? 我们可以如下创建一个Dataset: case class Person(name: String, age: Int) val personDS = S
我有一个换行符分隔的 json 文件,看起来像 {"id":1,"nested_col": {"key1": "val1", "key2": "val2", "key3": ["arr1", "arr
我正在尝试从 pandas 数据帧创建 Spark 数据帧。我正在基于由数组的结构类型和结构字段组成的模式构建模式。以下是示例架构: mySchema = ( StructType(
如果我想从case class创建一个StructType(即DataFrame.schema),有没有办法做到不创建 DataFrame 吗?我可以轻松做到: case class TestCase
我正在尝试更改从 RDBMS 数据库读取的数据框中存在的列的数据类型。为此,我通过以下方式获得了数据框的架构: val dataSchema = dataDF.schema 为了查看数据框的架构,我使
为什么它工作得很好 from pyspark.sql.types import * l=[("foo",83.33)] schema = StructType([ StructField("ty
我正在尝试更改从 RDBMS 数据库读取的数据框中存在的列的数据类型。为此,我通过以下方式获得了数据框的架构: val dataSchema = dataDF.schema 为了查看数据框的架构,我使
为什么它工作得很好 from pyspark.sql.types import * l=[("foo",83.33)] schema = StructType([ StructField("ty
我是一名优秀的程序员,十分优秀!