python - 如何在 Spark SQL (Dataframes) 中拉取数组的切片？-6ren

python - 如何在 Spark SQL (Dataframes) 中拉取数组的切片？

转载作者：太空宇宙更新时间：2023-11-03 11:23:54

26

4

我有一列包含拆分的 http 请求的数组。我将它们过滤为两种可能性之一:

|[, courses, 27381...|
|[, courses, 27547...|
|[, api, v1, cours...|
|[, api, v1, cours...|
|[, api, v1, cours...|
|[, api, v1, cours...|
|[, api, v1, cours...|
|[, api, v1, cours...|
|[, api, v1, cours...|
|[, api, v1, cours...|
|[, courses, 33287...|
|[, courses, 24024...|

在这两种数组类型中，从“类(class)”开始是相同的数据和结构。

我想使用 case 语句获取数组的切片，如果数组的第一个元素是“api”，则获取元素 3 -> 数组的末尾。我试过使用 Python 切片语法 [3:] 和普通的 PostgreSQL 语法 [3, n] where n 是数组的长度。如果它不是'api'，那么只取给定的值。

我理想的最终结果是一个数组，其中每一行共享相同的结构，第一个索引中包含类(class)，以便从该点开始更容易解析。

最佳答案

只需定义一个UDF 就非常简单，您创建了一个very similar question previously。所以我不会发布确切的答案让你思考和学习(为了你好)。

from pyspark.sql.functions import udf

df = sc.parallelize([(["ab", "bs", "xd"],), (["bc", "cd", ":x"],)]).toDF()

getUDF = udf(lambda x, y: x[1:] if x[y] == "ab" else x)

df.select(getUDF(col("_1"), lit(0))).show()

+------------------------+
|PythonUDF#<lambda>(_1,0)|
+------------------------+
|                [bs, xd]|
|            [bc, cd, :x]|
+------------------------+

关于python - 如何在 Spark SQL (Dataframes) 中拉取数组的切片？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37736409/

26

4

0

文章推荐： python - 在打开文件进行写入之前递归创建目录

文章推荐： c# - 如何使用文件 URL 机制在 Metro 中播放音乐

文章推荐： c# - 对 AudioVideoPlayback 命名空间的引用

文章推荐： javascript - 日期未在数据库中保存正确的值

python - 切片？
简而言之: 我怎样才能切片？也就是说，能够指定我想从多个索引(例如 y = x[(2, 5, 11)] )中提取，而不仅仅是单个索引(例如 y = x[2] )。简单示例 : 说我有这个数据: d
F# Array2D 切片
是否可以在 F# 中对 Array2D 进行切片？说，let tmp =Array2D.init 100 100 (fun x y -> x * 100 + y) 如何从 tmp 中检索某些列或某些
JavaScript html 切片
例如，我希望文本仅显示“此处”，但它不起作用。文本经常变化，但我需要的单词保持在固定位置。我想访问该词。我做错了什么？ function myFunction() { var x = doc
java - Spring分页和MongoDB切片中包含未知实例的页面/切片
当尝试使用spring的分页或切片来迭代非常大的mongodb集合时，程序运行正常，但在某些时候下一页/切片为空，并且在调试时出现“包含未知实例的页面/切片”消息. 这是代码示例: do { Pa
java - 切片 ListView
有人能给我一个关于如何分割 ListView 的例子吗？我正在使用 SimpleCursorAdapter 在 ListView 中显示数据.. 我的代码是这样的。 private WordDbAda
c++ - 切片，无可切片
这个问题在这里已经有了答案: C++ slicing causing leak / undefined behavior / crash (3 个答案) 关闭 8 年前。如果我有如下代码: cla
Python 切片 - 跳过一定数量的行
这个问题在这里已经有了答案: Understanding slicing (38 个答案) 关闭 5 年前。我目前有 500 行数据。我想使用前五十行，然后跳过 50 行，依此类推。我该如何继续这
没有维度的 Python 切片
为什么对一行或一列进行切片会产生“无量纲数组”？例如: import numpy as np arr = np.zeros((10,10)) print arr.shape # (10, 10) 但是
python - 切片、合并会计年度日期并将其映射到日历年日期到新列
我有以下 pandas 数据框: Shortcut_Dimension_4_Code Stage_Code 10225003 2 8225003
带有数组标准的 ruby 切片
如何通过数组为 ruby 中的散列创建切片，如下所示: info = { :key1 => "Lorem", :key2 => "something...", :key3 => "
Python 切片 - 除了括号中的内容以外的所有内容
这个问题在这里已经有了答案: regex to get all text outside of brackets (4 个答案) 关闭 5 年前。我正在编写的这个程序接收到一个大小不同的字符串，其
python - tensorflow 切片
我尝试使用 tf.Tensor.getitem 对张量进行切片功能如下: indices = [0, 5] data[:,:,indices] 但是我得到以下错误: TypeError: can on
没有副本的 Python 切片？
这个问题在这里已经有了答案: Can I create a "view" on a Python list? (10 个答案) 关闭 7 年前。有没有一种方法可以在 Python 3 中创建序列的
c# - 如何从多维数组中获取维度(切片)
我想弄清楚如何从多维数组中获取单个维度(为了论证，假设它是二维的)，我有一个多维数组: double[,] d = new double[,] { { 1, 2, 3, 4, 5 }, { 5, 4,
c++ - 切片 vector
我有一个 std::vector。我想创建代表该 vector 切片的迭代器。我该怎么做？在伪 C++ 中: class InterestingType; void doSomething(slice
Go学习笔记（9）Go容器类型——数组&切片&map
写在前面前面的文章介绍了Go的一些基本类型，本文开始涉及Go的一些容器类型，它们都是可以包含多个元素的数据结构，如数组、切片、map 数组数组是具有相同类型且长度固定的一组元素集合，定义的格式：v
python - 始终返回数组的 numpy 切片
给定一个 numpy 数组和一个 __getitem__ 类型的索引，是否有一种惯用的方法来获取数组的相应切片，总是返回一个数组而不是标量？有效索引的示例包括:int、slice、省略号或上述的元组
python - 切片 DataFrame 的子类时传递元数据
我创建了一个继承自 pandas.DataFrame 的类。在此类中添加了元数据(不是添加到列中，而是添加到类实例中): class MeasurementPoint(pandas.DataFrame
video - 如何在空间上将视频拆分为 NxM 切片？
我想在空间上剪切视频以生成 N x M 个文件。例如，我想把 test.video 拆分成 NxM 的瓦片？ Video tiles 最佳答案您可以使用 ffmpeg 及其 crop filter
javascript - 如何在页面加载时提取特定的 ampiechart 切片，
这是一个示例代码。比如我想拉德国在页面加载时切片。在这段代码中，它拉取第一个切片。无功图； var 传说; var chartData = [{ 国家:“立陶宛”，值:260}， { 国家:“爱

首页

博学

6Ren·AI

商城

python - 如何在 Spark SQL (Dataframes) 中拉取数组的切片？