dataframe - 可在 Julia 的多个列中进行透视-6ren

dataframe - 可在 Julia 的多个列中进行透视

转载作者：行者123 更新时间：2023-12-04 15:13:34

25

4

我想在 julia 的 DataFrame 上做一个数据透视表。从文档中，我知道我可以使用 by 和 unstack 来做到这一点。例如

julia> using DataFrames, Random

julia> Random.seed!(42);

julia> df = DataFrame(
           Step = rand(1:3, 15) |> sort,
           Label1 = rand('A':'B', 15) .|> Symbol,
           Label2 = rand('Q':'R', 15) .|> Symbol
       )
15×3 DataFrame
│ Row │ Step  │ Label1 │ Label2 │
│     │ Int64 │ Symbol │ Symbol │
├─────┼───────┼────────┼────────┤
│ 1   │ 1     │ A      │ Q      │
│ 2   │ 1     │ A      │ Q      │
│ 3   │ 1     │ B      │ R      │
│ 4   │ 1     │ B      │ R      │
│ 5   │ 1     │ B      │ Q      │
│ 6   │ 2     │ B      │ Q      │
│ 7   │ 2     │ B      │ Q      │
│ 8   │ 2     │ B      │ R      │
│ 9   │ 2     │ B      │ R      │
│ 10  │ 3     │ B      │ R      │
│ 11  │ 3     │ B      │ Q      │
│ 12  │ 3     │ B      │ R      │
│ 13  │ 3     │ A      │ R      │
│ 14  │ 3     │ B      │ R      │
│ 15  │ 3     │ B      │ Q      │

julia> unstack(by(df, [:Step, :Label1, :Label2], nrow), :Label1, :nrow)
6×4 DataFrame
│ Row │ Step  │ Label2 │ A       │ B      │
│     │ Int64 │ Symbol │ Int64?  │ Int64? │
├─────┼───────┼────────┼─────────┼────────┤
│ 1   │ 1     │ Q      │ 2       │ 1      │
│ 2   │ 1     │ R      │ missing │ 2      │
│ 3   │ 2     │ Q      │ missing │ 2      │
│ 4   │ 2     │ R      │ missing │ 2      │
│ 5   │ 3     │ Q      │ missing │ 2      │
│ 6   │ 3     │ R      │ 1       │ 3      │

现在，我如何在两列(这里是 Label1 和 Label2)上进行数据透视，以便获得这两列元素的每种组合的行数？预期的输出类似于

│ Row │ Step  │ AQ      │ AR      │ BQ      │ BR      │
│     │ Int64 │ Int64?  │ Int64?  │ Int64?  │ Int64?  │
├─────┼───────┼─────────┼─────────┼─────────┼─────────┤
│ 1   │ 1     │ 2       │ missing │ 1       │ 2       │
│ 3   │ 2     │ missing │ missing │ 2       │ 2       │
│ 5   │ 3     │ missing │ 1       │ 2       │ 3       │

提前致谢!蒂姆

最佳答案

首先 - by 已被弃用(手册将在几天内更新以反射(reflect)这一点)所以应该写:

julia> unstack(combine(groupby(df, [:Step, :Label1, :Label2]), nrow), :Label1, :nrow)
6×4 DataFrame
│ Row │ Step  │ Label2 │ A       │ B      │
│     │ Int64 │ Symbol │ Int64?  │ Int64? │
├─────┼───────┼────────┼─────────┼────────┤
│ 1   │ 1     │ Q      │ 2       │ 1      │
│ 2   │ 1     │ R      │ missing │ 2      │
│ 3   │ 2     │ Q      │ missing │ 2      │
│ 4   │ 2     │ R      │ missing │ 2      │
│ 5   │ 3     │ Q      │ missing │ 2      │
│ 6   │ 3     │ R      │ 1       │ 3      │

但是，如果你想要行数，我宁愿做这样的事情:

julia> gdf = groupby(df, [:Step, :Label2], sort=true);

julia> lev = unique(df.Label1)
2-element Array{Symbol,1}:
 :A
 :B

julia> combine(gdf, :Label1 .=> [x -> count(==(l), x) for l in lev] .=> lev)
6×4 DataFrame
│ Row │ Step  │ Label2 │ A     │ B     │
│     │ Int64 │ Symbol │ Int64 │ Int64 │
├─────┼───────┼────────┼───────┼───────┤
│ 1   │ 1     │ Q      │ 2     │ 1     │
│ 2   │ 1     │ R      │ 0     │ 2     │
│ 3   │ 2     │ Q      │ 0     │ 2     │
│ 4   │ 2     │ R      │ 0     │ 2     │
│ 5   │ 3     │ Q      │ 0     │ 2     │
│ 6   │ 3     │ R      │ 1     │ 3     │

所以你有 0 而不是 missing 在你有缺失值的地方。

此模式推广到多个组:

julia> gdf = groupby(df, :Step, sort=true);

julia> l1 = unique(df.Label1)
2-element Array{Symbol,1}:
 :A
 :B

julia> l2 = unique(df.Label2)
2-element Array{Symbol,1}:
 :Q
 :R

julia> combine(gdf, [[:Label1, :Label2] =>
                     ((x,y) -> count(((x,y),) -> x==v1 && y==v2, zip(x,y))) =>
                     Symbol(v1, v2) for v1 in l1 for v2 in l2])
3×5 DataFrame
│ Row │ Step  │ AQ    │ AR    │ BQ    │ BR    │
│     │ Int64 │ Int64 │ Int64 │ Int64 │ Int64 │
├─────┼───────┼───────┼───────┼───────┼───────┤
│ 1   │ 1     │ 2     │ 0     │ 1     │ 2     │
│ 2   │ 2     │ 0     │ 0     │ 2     │ 2     │
│ 3   │ 3     │ 0     │ 1     │ 2     │ 3     │

另一种使用原始代码的方法是:

julia> unstack(combine(groupby(select(df, :Step, [:Label1, :Label2] => ByRow(Symbol) => :Label), [:Step, :Label]), nrow), :Label, :nrow)
3×5 DataFrame
│ Row │ Step  │ AQ      │ AR      │ BQ     │ BR     │
│     │ Int64 │ Int64?  │ Int64?  │ Int64? │ Int64? │
├─────┼───────┼─────────┼─────────┼────────┼────────┤
│ 1   │ 1     │ 2       │ missing │ 1      │ 2      │
│ 2   │ 2     │ missing │ missing │ 2      │ 2      │
│ 3   │ 3     │ missing │ 1       │ 2      │ 3      │

但是，我同意这并不容易。此问题已在 https://github.com/JuliaData/DataFrames.jl/issues/2148 中进行跟踪和相关的https://github.com/JuliaData/DataFrames.jl/issues/2205 .

关于dataframe - 可在 Julia 的多个列中进行透视，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64738653/

25

4

0

文章推荐： reactjs - React测试库，如何测试history.push

文章推荐： R如何仅计算营业时间的 "task time"

文章推荐： python - pytorch模块中的初始化类成员

OpenGL 透视
我正在尝试使用透视投影描绘一个立方体，但我得到的只是一个正方形的角。正方形的面设置在原点并向正方向扩展。使用 glOrtho 我可以设置坐标系，但我在使用 glPerspective 做同样的事情时遇
mysql - 子查询选择行作为列(透视)
SELECT j.departure, stopDepartures.* FROM journey j JOIN journey_day ON journey_day.journey = j.id J
MYSQL 透视/将行转换为值匹配的列
我确实需要一些帮助来了解如何根据相似的值对表格进行透视。 day | startDate ----------------------- Monday | 09:00 Monday |
python - 透视/旋转数据集的最佳方式
我有以下数据框 df = pd.DataFrame({ '1': ['Mon (07/08)','Sales', '2'], '2': ['Mon (07/0
python - 分组依据/透视
dummy_df = pd.DataFrame({ 'accnt' : [101, 102, 103, 104, 101, 102, 103, 104, 101, 102, 103, 104,
android - 3D旋转-透视
public class MainActivity extends Activity { LinearLayout rotator; protected void onCreate(Bundle sa
PHP ImageMagick Plane2Cylinder 透视
我正在尝试通过 PHP 更改 ImageMagick 中 Plane2Cylinder 失真的视角。为了帮助解释我在寻找什么，我制作了这张图: 您可以看到红色 block 的下部比顶部的半径更大，就
sql - 透视 - SQL - 来自子查询的值
我有一个像这样的简单查询.. USE AdventureWorks; GO SELECT DaysToManufacture, AVG(StandardCost) AS AverageCost FRO
mysql - 透视 MySQL 数据
我希望我可以更改架构，但我受制于它，假设我有以下表格 JanDataTable FebDataTable MarDataTable ProductsTable 其中前三个表有 ID 和 Amount
c# - 透视 3D 对象
我正在将我们的一个旧应用程序从 vb6 更新到 c#，在此过程中必须重新创建原始程序员设计的自定义控件。该控件简单地获取对象的尺寸，矩形或圆锥形，并在 3D 中放置对象的轮廓草图(我认为在技术上是 2
mysql - 透视 MySQL 表
我一直在尝试在 MySQL 中对表进行透视(将行移动到列)。我知道 mysql 没有枢纽功能，所以我认为需要联合，但不是 100% 确定。我有三列，user_id、option_id 和 Questi
mysql - 透视 mysql 表返回
我正在尝试旋转像这样创建的 mysql 表 'CREATE TABLE `fundreturns` ( `Timestamp` datetime NOT NULL, `FundName` varcha
mysql - 多连接查询，透视？烦恼
提前感谢任何对此提供帮助的人。我知道我以前做过这件事，没有太多痛苦，但似乎找不到解决方案我的数据库看起来像这样: `tbl_user: ---------- id ( pkey )
javascript - 透视 CSS3 不工作
我正在尝试开发 X 轴方向的卡片翻转动画。截至目前，div 现在只需使用 rotateX() 方法进行旋转。我试过对上层 div 使用透视属性，而不是工作它扭曲了我的 div 结构。因为，这只是一个工
CSS3 透视 z 轴可见性
我有一个带有 CSS3 透视图的 DIV 元素。 DIV 包含 2 个子 DIV，其中之一在 z 轴上有平移。这应该会导致一个 DIV 在另一个前面，因此后面的那个应该被挡住。然而，这些 DIV 的
CSS3 第二个 3D 透视
大家好，我有一张这样的 map http://sinanisler.com/demo/map/ 如您所见，有一些树，但不是真正的视角，我想要这个 http://sinanisler.com/demo/
c++ - OpenGL 平截头体、透视
我有以下代码将快照拍摄到帧缓冲区。我验证了帧缓冲区工作正常并且相机正确地面向对象。我曾经正确地完成图片，但它是基于错误的代码，使用了错误的截锥体。所以我决定重新开始(使用截锥体)。物体以中间为中心，
python - 透视 Pandas 数据并添加列
我正在尝试将求和列添加到透视数据框，但不断收到数据解析错误。 mydata = [{'amount': 3200, 'close_date':'2013-03-31', 'customer': 'Cu
c# - 透视 IEnumerable 列表
我正在尝试将一些 groupby/crosstabbing 逻辑应用于用户定义对象的 IEnumerable 列表，并且想知道是否有人可以帮助我。我坚持使用现有的(相当烦人的)对象模型来工作，但无论如
ios - CoreImage 的深度/透视？
我想使用一个 CALayer 创建如下图所示的效果 - 而不是通过拆分图像、对两半进行透视变换然后将它们并排放置。可以使用 CoreImage 以任何方式完成吗？或者，有人可以使用 OpenGL

首页

博学

6Ren·AI

商城

dataframe - 可在 Julia 的多个列中进行透视