pyspark:自动填充隐式缺失值-6ren

pyspark:自动填充隐式缺失值

转载作者：行者123 更新时间：2023-12-02 09:02:39

26

4

我有一个数据框

user day amount
a 2 10
a 1 14
a 4 5
b 1 4

你看，day的最大值是4，最小值是1。amount我要填0列在所有用户的所有缺失日期中，因此上述数据框将变为。

user day amount
    a 2 10
    a 1 14
    a 4 5
    a 3 0
    b 1 4
    b 2 0
    b 3 0
    b 4 0

我如何在 PySpark 中做到这一点？非常感谢。

最佳答案

这是一种方法。您可以先获取最小值和最大值，然后对 user 列和数据透视进行分组，然后填充缺失的列并将所有空值填充为 0，然后将它们堆叠回去:

min_max = df.agg(F.min("day"),F.max("day")).collect()[0]
df1 = df.groupBy("user").pivot("day").agg(F.first("amount").alias("amount")).na.fill(0)

missing_cols = [F.lit(0).alias(str(i)) for i in range(min_max[0],min_max[1]+1) 
                                                if str(i) not in df1.columns ]
df1 = df1.select("*",*missing_cols)

#+----+---+---+---+---+
#|user|  1|  2|  4|  3|
#+----+---+---+---+---+
#|   b|  4|  0|  0|  0|
#|   a| 14| 10|  5|  0|
#+----+---+---+---+---+

#the next step is inspired from https://stackoverflow.com/a/37865645/9840637
arr = F.explode(F.array([F.struct(F.lit(c).alias("day"), F.col(c).alias("amount"))
                                           for c in df1.columns[1:]])).alias("kvs")
(df1.select(["user"] + [arr])
    .select(["user"]+ ["kvs.day", "kvs.amount"]).orderBy("user")).show()

+----+---+------+
|user|day|amount|
+----+---+------+
|   a|  1|    14|
|   a|  2|    10|
|   a|  4|     5|
|   a|  3|     0|
|   b|  1|     4|
|   b|  2|     0|
|   b|  4|     0|
|   b|  3|     0|
+----+---+------+

请注意，由于列 day 已旋转，数据类型可能已更改，因此您可能必须将它们转换回原始数据类型

关于pyspark:自动填充隐式缺失值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62146283/

26

4

0

文章推荐： verilog - Quartus 不允许在 Verilog 中使用生成模块

jqueryscrollLeft 自动？
我想做的是，如果鼠标位于“下一个”按钮上，它会以慢速向右滚动，如果鼠标没有位于“下一个”按钮上，它会停止滚动？这是我的尝试http://jsfiddle.net/mdanz/nCCRy/14/ $(
.net - 自动 StyleCop
StyleCop 是一个很棒的视觉工作室小插件。但它不会向您显示实时提示或提供任何自动修复。随之而来的是 reSharper 和 StyleCop for reSharper，这是理想的解决方案，但
elasticsearch - 将MatchQuery的模糊性设置为“自动”
我为我的MatchQuery使用了模糊性选项，但是我想将模糊性值设置为auto。有什么办法吗？另外，对于完成建议程序，您可以将其设置为支持unicode，对于我的MatchQuery，有什么方法可以
java 将表行映射到对象(自动)
我想从表中获取一行[字符串名称，字符串密码，int 某些内容]并将其映射到一个 User 对象，该对象具有 3 个属性，如上面的 getter 和 setter有什么方法可以自动完成吗？我考虑过反射，
c# - 自动 .ToString()？
我有一个像这样的方法:void m1(string str) 并且有一个像这样的类: public class MyClass { public bool b1 { set; get; }
javascript - 自动$广播数据
我正在尝试使用 $rootScope 从一个 Controller 向另一个 Controller $broadcast 一些数据。如果我使用像 ng-click 这样的触发器来运行将广播的功能，它
mysql - 自动/手动缓存的优缺点
我考虑了很多关于是要使用完全自动化的缓存还是手动缓存。我们的自动方法是一种解决方案，它可以挖掘数据库、查询和格式化每个潜在和 future 的数据请求，并将其保存到适当的缓存存储(内存缓存或基于磁盘
css 悬停替代(自动)
我的 CSS 必须使用过渡来更改，直到现在我都使用 div:hover 来实现。当您单击另一个 div 时需要激活过渡，而不是当您将鼠标悬停在必须移动/更改的 div 上时。我该怎么做？谢谢永
快速动画持续时间，即使我不想(自动？)
在我的应用程序中，我需要一些动画，但如果它已经设置了动画，则不需要持续时间。但我的问题是它会自动添加持续时间。在这里你可以看到 2 个函数，第二个没有持续时间但它确实有持续时间(可能从 1 秒开始)
php - 自动 uploader
两年前，我需要制作一个工具，通过 POST 自动将 txt/csv 文件上传到我的 Web 服务器，然后使用 cronjob 通过 PHP 对其进行解析。这有两次在每天午夜自动发生。尽管这行得通，但
c - 函数参数中的数组名称的处理方式是否与本地声明的数组不同(自动)
请阅读下面程序中的评论: #include void test(char c[]) { c=c+2; //why does this work ? c--; printf("%
c++ - 自动/静态内存分配
也许是个幼稚的问题，但是...... 确认或拒绝: 自动和静态存储持续时间的对象/变量的内存的存在是在编译时确定的，程序运行时失败的可能性绝对为零，因为没有足够的内存用于自动对象。自然地，当自动对象
c# - 自动 INotifyPropertyChanged
有没有什么方法可以自动获得类中属性更改的通知，而不必在每个 setter 中都编写 OnPropertyChanged？ (我有数百个属性，我想知道它们是否已更改)。安东建议 dynamic pro
azure-pipelines - 基于源分支的不同合并策略(自动)
我们在使用 Azure DevOps 的项目中采用了 gitflow 流程。我有以下场景: 当功能分支合并到 Develop 时，我想在完成拉取请求的同时执行压缩合并策略当 Release 分支定期
AngularJS 自动 HTML 编码符号
我的网站上有一个评论部分，我将 html 编码的评论保存在我的数据库中。所以我添加了这条评论- "testing" `quotes` \and backslashes\ and html 并将其保存在
签到前 TFS 自动 checkout
是否存在“ checkin 前 TFS 自动 checkout ”这样的功能，以便在我说“ checkin ”之前我不会 checkout 任何文件，例如以防我只是临时更改文件 - 这一直发生。换句
apache - 自动 Apache 服务器维护页面
我有一个运行在 Linux/Apache/Tomcat 堆栈上的网站，它需要每隔几个月自动脱机以进行服务器维护，这将持续任意时间。有哪些选项可以让 Apache 建立和取消“服务器维护”页面？我需要
vba - 自动 Excel 首字母缩写词查找和定义添加
我经常在工作中创建文档，在公司内部，由于我们使用的首字母缩写词和缩写词的数量，我们几乎拥有自己的语言。因此，我厌倦了在发布文档之前手动创建首字母缩写词和缩写表，并且快速的谷歌搜索发现了一个可以有效地为
Excel:是否存在检测计算模式变化的事件(自动/手动)
我希望在用户或宏将计算模式从自动更改为手动或手动更改为自动时运行代码。是否有为此触发的事件？ (属性是 Application.Calculation 在 Excel 互操作中。) 使用 Excel
bash - 自动 Bash 脚本
这个问题在这里已经有了答案: Repeat command automatically in Linux (13 个回答) 6年前关闭。我想创建一个脚本来获取另一个文件夹中的所有文件夹名称。并为这些

首页

博学

6Ren·AI

商城

pyspark:自动填充隐式缺失值