- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个以下格式的数据框:
+----------+-------+----------+---------+-----------------------+---------+---------+
|rownum |viewid |skillid |parentId |post_timestamp |is_skill |column A |
+----------+-------+----------+---------+-----------------------+---------+---------+
|1 |251 |b |xyz12 |2019-01-31 09:24:02.868|true |abcde |
|2 |251 |b |abc34 |2019-01-31 10:24:02.868|false |453aw |
|3 |251 |b |abc34 |2019-01-31 11:24:02.868|false |abcde |
|4 |94 |a |ghi23 |2019-01-31 02:28:05.107|false |bbbbb |
|5 |94 |a |yui67 |2019-01-31 09:06:57.976|true |nnnn |
|6 |94 |a |qwe12 |2019-01-31 09:24:02.868|false |2n21q |
|7 |94 |a |qwe12 |2019-01-31 10:06:57.976|false |nnnnq |
|8 |94 |a |rty87 |2019-01-31 15:07:57.976|true |1234 |
|9 |94 |a |bnm22 |2019-01-31 16:28:05.107|true |1234 |
|10 |94 |a |bnm22 |2019-01-31 17:28:05.107|true |6789 |
|11 |94 |b |tyu12 |2019-01-31 09:24:02.868|true |6789 |
+----------+-------+----------+---------+-----------------------+---------+---------+
对于一组viewid
和skillid
,如果当前行的 parentId
不等于上一行的 parentId
然后找到该组中 SkillId 值为 true 的最新行,并且检查当前行的columnA值是否不等于该行的columnA值。
Column matchedParentId = df.col("parentId").$eq$eq$eq(functions.lag("parentId",1);```
Now how can I go back to the dataframe until skillId is true? I guess going back would be doable as the dataframe is ordered by timestamp.
最佳答案
我使用Scala,但我想出的解决方案是
-使用窗口函数在parent_Id所在行之前查找is_skill = true的最后一行的行号不等于之前的parent_Id-自连接数据框以匹配行
期望的输出是否如下?
+------+------+-------+--------+--------------------+--------+--------+---------------+--------+
|rownum|viewid|skillid|parentId| post_timestamp|is_skill|column A|matchedParentId|isAEqual|
+------+------+-------+--------+--------------------+--------+--------+---------------+--------+
| 1| 251| b| xyz12|20190131 09:24:02...| true| abcde| null| true|
| 2| 251| b| abc34|20190131 10:24:02...| false| 453aw| false| false|
| 3| 251| b| abc34|20190131 11:24:02...| false| abcde| true| true|
| 5| 94| a| yui67|20190131 09:06:57...| true| nnnn| false| true|
| 6| 94| a| qwe12|20190131 09:24:02...| false| 2n21q| false| false|
| 7| 94| a| qwe12|20190131 10:06:57...| false| nnnnq| true| false|
| 8| 94| a| rty87|20190131 15:07:57...| true| 1234| false| true|
| 9| 94| a| bnm22|20190131 16:28:05...| true| 1234| false| true|
| 10| 94| a| bnm22|20190131 17:28:05...| true| 6789| true| true|
| 11| 94| b| tyu12|20190131 09:24:02...| true| 6789| null| true|
+------+------+-------+--------+--------------------+--------+--------+---------------+--------+
这是代码:
import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions
import spark.implicits._
val df = Seq((1,251 ,"b" ,"xyz12" ,"20190131 09:24:02.868",true ,"abcde"),
(2 ,251 ,"b" ,"abc34" ,"20190131 10:24:02.868", false ,"453aw"),
(3 ,251 ,"b" ,"abc34" ,"20190131 11:24:02.868", false ,"abcde"),
(4 ,94 ,"a" ,"ghi23" ,"20190131 02:28:05.107", false ,"bbbbb"),
(5 ,94 ,"a" ,"yui67" ,"20190131 09:06:57.976", true ,"nnnn"),
(6 ,94 ,"a" ,"qwe12" ,"20190131 09:24:02.868", false ,"2n21q"),
(7 ,94 ,"a" ,"qwe12" ,"20190131 10:06:57.976", false ,"nnnnq"),
(8 ,94 ,"a" ,"rty87" ,"20190131 15:07:57.976", true ,"1234"),
(9 ,94 ,"a" ,"bnm22" ,"20190131 16:28:05.107", true ,"1234"),
(10 ,94 ,"a" ,"bnm22" ,"20190131 17:28:05.107",true ,"6789"),
(11 ,94 ,"b" ,"tyu12" ,"20190131 09:24:02.868",true ,"6789")).
toDF("rownum", "viewid", "skillid", "parentId" , "post_timestamp", "is_skill", "column A")
val w = Window.partitionBy("viewid", "skillid").orderBy("post_timestamp")
val df2 = df.withColumn("matchedParentId", lag($"parentId", 1).over(w).equalTo($"parentId")).
withColumn("rank", rank.over(w)).withColumn("is_skill_int", when($"is_skill", 1).otherwise(0)).
withColumn("test", max($"is_skill_int" * $"rank").over(w))
val df3 = df2.as("df_left").
join(df2.as("df_right"), $"df_left.viewid".equalTo($"df_right.viewid").
and($"df_left.skillid".equalTo($"df_right.skillid")).
and($"df_left.rank".equalTo($"df_right.test"))).
withColumn("isAEqual", $"df_left.column A".equalTo($"df_right.column A")).
select("df_right.rownum", "df_right.viewid", "df_right.skillid", "df_right.parentId", "df_right.post_timestamp", "df_right.is_skill", "df_right.column A", "df_right.matchedParentId", "isAEqual").
orderBy("rownum")
df3.show
关于java - Spark : Going reverse in dataframe until a condition met,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54870111/
我正在使用 go 图表库 https://github.com/wcharczuk/go-chart制作条形图。我面临的问题是标签值很长,我想将文本旋转 45 度以显示完整文本 我喜欢显示的日期格式是
我在构建一个非常简单的通过 cgo 调用 c 代码的 go 程序时遇到了问题。我的设置: $: echo $GOPATH /go $: pwd /go/src/main $: ls ctest.c
没有 C 的背景,只有 Go 的“初学者”经验,我正在尝试弄清楚 main.go 是实际需要的还是只是一个约定。 我想创建一个简单的网络 API,但有人可以为我澄清一下吗? 最佳答案 main.go
我read从 Go 1.4 开始,Go 运行时是用 Go 本身编写的(而不是用 C)。 这怎么可能?如果 Go 程序在运行时之上运行,并且运行时是 Go 程序,那么运行时是否在自身之上运行? 最佳答案
这是“Go 之旅”中的代码示例 Range and Close : package main import ( "fmt" ) func fibonacci(n int, c chan int
给定以下 go.mod 文件: module foo go 1.12 require ( github.com/bar/baz v1.0.0 github.com/rat/cat v1
我有一个 CI/CD 管道,它需要跨平台并与几个不同的管理程序一起工作。为了不必更改 Windows 和 Linux 的构建任务,我认为 Go 将是编写一次代码并在任何地方运行的好方法。然而,考虑到
我有一个 Dockerfile,用于使用 go build 编译 Go 应用程序。我进行了研究,确实建议将 go build 用于生产。 但是我找不到正确的答案来解释为什么。 我了解 go run 创
我尝试在命令提示符#Go lang 中运行该程序-但是当我键入运行“go run hello.go”命令时,我开始了 CreateFile hello.go:The system cannot fin
我正在使用“Go 编程语言”一书学习 Go。第一章介绍os.Open用于读取文件的模块。我尝试打开如下所示的 go 文件。 f, err = os.Open("helloworld.go") 我收
关闭。这个问题需要details or clarity .它目前不接受答案。 想改进这个问题?通过 editing this post 添加详细信息并澄清问题. 2年前关闭。 Improve this
为了解决我对 goroutine 的一些误解,我去了 Go 操场跑了 this code : package main import ( "fmt" ) func other(done cha
这个问题在这里已经有了答案: Evaluate/Execute Golang code/expressions like js' eval() (5 个回答) 1年前关闭。 对于任何 go 程序,我想
这是我基本上试图从路径打印基准的代码。 这意味着,如果用户输入“/some/random/path.java”,则输出将为“path”。同样,如果用户arg为“/another/myapp.c”,则输
$ go version 1.13.3 我的文件夹结构如下: GOPATH +---src +--- my-api-server +--- my-auth-server
这个问题在这里已经有了答案: How to embed file for later parsing execution use (4 个答案) What's the best way to bun
我觉得这有点奇怪,为什么这段代码不起作用? package main import "fmt" func main() { var i, j int = 1, 2 k
go编译器执行完如下命令后的可执行文件存放在哪里? $> go run file.go 最佳答案 在 /tmp 文件夹中,如果您使用的是 unix 机器。 如果您使用的是 Windows,则在 \Us
我目前正在开始使用 Go,并且已经深入研究了有关包命名和工作区文件夹结构的注意事项。 不过,我不太确定如何根据 Go 范式正确组织我的代码。 这是我当前的结构示例,它位于 $GOPATH/src 中:
假设我有一个接受用户输入的 Lua 程序,而该输入恰好是有效的 Lua 源代码。这是在程序仍在运行时进行清理、编译和执行的。 Go 是否(或将)实现这样的事情? 最佳答案 我认为以下两个项目之间有足够
我是一名优秀的程序员,十分优秀!