dataframe - 如何在 Julia 中将 IndexedTable 转换为 DataFrame？-6ren

dataframe - 如何在 Julia 中将 IndexedTable 转换为 DataFrame？

转载作者：行者123 更新时间：2023-12-03 22:22:17

在快速解释工作中，IndexedTables似乎比 DataFrames 快得多处理单个元素(例如选择或“更新”)，但 DataFrames拥有更好的功能生态系统，例如绘图，导出..

因此，在工作流的某个时刻，我想将 IndexedTable 转换为 DataFrame，例如

using DataFrames, IndexedTables, IndexedTables.Table

tn = Table(
    Columns(
        param  = String["price","price","price","price","waterContent","waterContent"],
        item   = String["banana","banana","apple","apple","banana", "apple"],
        region = Union{String,DataArrays.NAtype}["FR","UK","FR","UK",NA,NA]
    ),
    Columns(
       value2000 = Float64[2.8,2.7,1.1,0.8,0.2,0.7],
       value2010 = Float64[3.2,2.9,1.2,0.8,0.2,0.8],
    )
)

到 >>

df_tn = DataFrame(
    param     = String["price","price","price","price","waterContent","waterContent"],
    item      = String["banana","banana","apple","apple","banana", "apple"],
    region    = Union{String,DataArrays.NAtype}["FR","UK","FR","UK",NA,NA],
    value2000 = Float64[2.8,2.7,1.1,0.8,0.2,0.7],
    value2010 = Float64[3.2,2.9,1.2,0.8,0.2,0.8],
)

或者

t = Table(
    Columns(
        String["price","price","price","price","waterContent","waterContent"],
        String["banana","banana","apple","apple","banana", "apple"],
        Union{String,DataArrays.NAtype}["FR","UK","FR","UK",NA,NA]
    ),
    Columns(
       Float64[2.8,2.7,1.1,0.8,0.2,0.7],
       Float64[3.2,2.9,1.2,0.8,0.2,0.8],
    )
)

到 >>

df_t = DataFrame(
    x1 = String["price","price","price","price","waterContent","waterContent"],
    x2 = String["banana","banana","apple","apple","banana", "apple"],
    x3 = Union{String,DataArrays.NAtype}["FR","UK","FR","UK",NA,NA],
    x4 = Float64[2.8,2.7,1.1,0.8,0.2,0.7],
    x5 = Float64[3.2,2.9,1.2,0.8,0.2,0.8]
)

我可以找到与 pair() 交互的单个“行”值。 :

for (i,pair) in enumerate(pairs(tn))
    rowValues = []
    for (j,section) in enumerate(pair)
        for item in section
            push!(rowValues,item)
        end
    end
    println(rowValues)
end

但是，我无法获取列名称和类型，我想按列工作会更有效。

编辑:我确实设法使用上面的代码获取了“列”类型，我现在只需要获取列名(如果有):

colTypes = Union{Union,DataType}[]

for item in tn.index.columns
  push!(colTypes, eltype(item))
end
for item in tn.data.columns
  push!(colTypes, eltype(item))
end

编辑2 :根据要求，这是一个 IndexedTable 的示例，该示例使用(当前)Dan Getz 答案将无法转换列名，因为“索引”列被命名为元组，但“数据”列是正常的元组:

t_named_idx = Table(
    Columns(
        param  = String["price","price","price","price","waterContent","waterContent"],
        item   = String["banana","banana","apple","apple","banana", "apple"],
        region = Union{String,DataArrays.NAtype}["FR","UK","FR","UK",NA,NA]
    ),
    Columns(
       Float64[2.8,2.7,1.1,0.8,0.2,0.7],
    )
)

问题似乎出在 IndexedTable API 中，特别是在 columns(t) 中函数，不区分索引和值。

最佳答案

以下转换函数:

toDataFrame(cols::Tuple, prefix="x") = 
  DataFrame(;(Symbol("$prefix$c") => cols[c] for c in fieldnames(cols))...)

toDataFrame(cols::NamedTuples.NamedTuple, prefix="x") = 
  DataFrame(;(c => cols[c] for c in fieldnames(cols))...)

toDataFrame(t::IndexedTable) = toDataFrame(columns(t))

给(在 Julia 0.6 上， tn 和 t 定义为问题中的定义):

julia> tn
param           item      region │ value2000  value2010
─────────────────────────────────┼─────────────────────
"price"         "apple"   "FR"   │ 1.1        1.2
"price"         "apple"   "UK"   │ 0.8        0.8
"price"         "banana"  "FR"   │ 2.8        3.2
"price"         "banana"  "UK"   │ 2.7        2.9
"waterContent"  "apple"   NA     │ 0.7        0.8
"waterContent"  "banana"  NA     │ 0.2        0.2

julia> df_tn = toDataFrame(tn)
6×5 DataFrames.DataFrame
│ Row │ param          │ item     │ region │ value2000 │ value2010 │
├─────┼────────────────┼──────────┼────────┼───────────┼───────────┤
│ 1   │ "price"        │ "apple"  │ "FR"   │ 1.1       │ 1.2       │
│ 2   │ "price"        │ "apple"  │ "UK"   │ 0.8       │ 0.8       │
│ 3   │ "price"        │ "banana" │ "FR"   │ 2.8       │ 3.2       │
│ 4   │ "price"        │ "banana" │ "UK"   │ 2.7       │ 2.9       │
│ 5   │ "waterContent" │ "apple"  │ NA     │ 0.7       │ 0.8       │
│ 6   │ "waterContent" │ "banana" │ NA     │ 0.2       │ 0.2       │

类型信息主要保留:

julia> typeof(df_tn[:,1])
DataArrays.DataArray{String,1}

julia> typeof(df_tn[:,4])
DataArrays.DataArray{Float64,1}

对于未命名的列:

julia> t
───────────────────────────────┬─────────
"price"         "apple"   "FR" │ 1.1  1.2
"price"         "apple"   "UK" │ 0.8  0.8
"price"         "banana"  "FR" │ 2.8  3.2
"price"         "banana"  "UK" │ 2.7  2.9
"waterContent"  "apple"   NA   │ 0.7  0.8
"waterContent"  "banana"  NA   │ 0.2  0.2

julia> df_t = toDataFrame(t)
6×5 DataFrames.DataFrame
│ Row │ x1             │ x2       │ x3   │ x4  │ x5  │
├─────┼────────────────┼──────────┼──────┼─────┼─────┤
│ 1   │ "price"        │ "apple"  │ "FR" │ 1.1 │ 1.2 │
│ 2   │ "price"        │ "apple"  │ "UK" │ 0.8 │ 0.8 │
│ 3   │ "price"        │ "banana" │ "FR" │ 2.8 │ 3.2 │
│ 4   │ "price"        │ "banana" │ "UK" │ 2.7 │ 2.9 │
│ 5   │ "waterContent" │ "apple"  │ NA   │ 0.7 │ 0.8 │
│ 6   │ "waterContent" │ "banana" │ NA   │ 0.2 │ 0.2 │

编辑:正如@Antonello 所指出的，未正确处理混合命名和未命名元组的情况。为了正确处理它，我们可以定义:

toDataFrame(t::IndexedTable) = 
  hcat(toDataFrame(columns(keys(t)),"y"),toDataFrame(columns(values(t))))

然后，混合情况给出如下结果:

julia> toDataFrame(tn2)
6×5 DataFrames.DataFrame
│ Row │ param          │ item     │ region │ x1  │ x2  │
├─────┼────────────────┼──────────┼────────┼─────┼─────┤
│ 1   │ "price"        │ "apple"  │ "FR"   │ 1.1 │ 1.2 │
│ 2   │ "price"        │ "apple"  │ "UK"   │ 0.8 │ 0.8 │
│ 3   │ "price"        │ "banana" │ "FR"   │ 2.8 │ 3.2 │
│ 4   │ "price"        │ "banana" │ "UK"   │ 2.7 │ 2.9 │
│ 5   │ "waterContent" │ "apple"  │ NA     │ 0.7 │ 0.8 │
│ 6   │ "waterContent" │ "banana" │ NA     │ 0.2 │ 0.2 │

关于dataframe - 如何在 Julia 中将 IndexedTable 转换为 DataFrame？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46844516/

文章推荐： Ninject 拦截具有特定属性的任何方法？

文章推荐： boost - boost::string_ref 和 boost::string_view 的区别

文章推荐： datetime - 如何在Haxe中以毫秒为单位获取当前时间？

julia - 如何在 julia 控制台中获得与在 julia 代码中输出相同的打印格式？
使用 julia 控制台时，您输入如下内容: [10,20]*[1:100,1:100]' 你会得到这样的输出: 2x200 Array{Int64,2}: 10 20 30 40 50
julia - Julia 和 Julia Pro 有什么区别？
Julia Computing 提供的 Julia 和 Julia Pro 有什么区别？ Julia Pro 是否有任何在 Julia 中不可用的企业库？最佳答案正如您在 project desc
julia - 可以对 Julia (julia-lang) 代码进行静态分析以避免运行时类型错误吗？
我最近将我的一个模拟移植到 Julia 中，我仅在运行时发现了几个类型错误。我希望静态分析我的 Julia 代码。 MATLAB 也有类似的问题，只在运行时发现很多错误。我发现的唯一工具 ( Typ
julia - 我如何监控 Julia 和所有 Julia 包的更新？
是否有一种简单的方法来监控 julia 和所有 julia 包的提交和开发？我知道 https://github.com/JuliaLang/julia/commits/master 最佳答案如果您
julia - 每次启动 Julia 环境时运行 Julia 函数
我正在从 R 迁移，我使用 head() function很多。我在 Julia 中找不到类似的方法，所以我为 Julia Arrays 写了一个。我还将其他几个 R 函数移植到 Julia。我需要
julia - Julia 有函数装饰器吗？
在某些语言(如 Python)中，有函数装饰器，它们看起来像宏，位于函数定义之上。装饰器为函数本身提供了一些额外的功能。 Julia 是否以任何方式支持函数装饰器的想法？是否可以使用宏来实现相同的目标
julia - Julia 中的并行计算和错误分配的核心数
我用Julia中的pmap()函数写了一段并行代码。然后我在集群上保护了四个核心并运行了一个脚本: julia -p 12 my_parallel_program.jl 我现在应该取消我的工作吗？现
julia - Julia 的链表
谁能帮我理解接下来的事情: 1)为什么我们需要在制作链表的同时制作一个 future 结构的新抽象类？ 2) 为什么有参数 T？ 3)这个操作符是干什么的 struct BrokenList
julia - Julia 中的二维曲线拟合
我在 Julia 中有一个数组 Z，它表示二维高斯函数的图像。 IE。 Z[i,j] 是像素 i,j 处的高斯高度。我想确定高斯的参数(均值和协方差)，大概是通过某种曲线拟合。我研究了各种拟合 Z
julia - Julia 使用参数化类型创建空对象的方法是什么？
假设，我们有如下数据结构 struct MyStruct{T} t :: Union{Nothing, T} end 并且我们希望允许用户在不添加任何数据的情况下初始化结构，例如 MyStru
julia - 两个结构可以相互引用吗？ - Julia
我有一个包含相同类型字段的结构，我无法在创建时分配该字段。 Julia 似乎不喜欢以下内容。 (它吐出一个循环引用投诉。)我打算将问题归结为它的本质 mutable struct Test t
julia - Julia 中的最大似然法
我正在尝试使用最大似然估计 Julia 中的正态线性模型。根据 Optim 文档中关于不更改的值，我使用以下代码通过拦截和匿名函数来模拟该过程: using Optim nobs = 500 nvar
julia - 如何从命令行更新 Julia？
有没有办法从命令行更新 Julia？我浏览了 documentation ，但我找不到任何东西。最佳答案我建议尝试 asdf如果您使用的是 MacOS、Linux 或 Linux 的 Window
julia - Julia 中对称矩阵的快速求和
我想对维度为 n 乘以 n 的矩阵 A 中的所有元素求和。该矩阵是对称的并且对角线上有 0。我发现最快的方法就是求和(A)。然而，这似乎很浪费，因为它没有使用我只需要计算矩阵的下三角这一事实。但是，s
julia - Julia 中的单项式向量
假设你有一个向量元组 $a$，我想在 julia 中定义一个函数 p(x)=x^a。例如，如果 a=(1,2,3)，则结果函数将为 x^1 *y^2 * z^3。我想为任何元组提供一个通用方法，但
julia - Julia 不支持抽象多重继承有什么根本原因吗？
例如，我希望能够按照以下方式做一些事情: abstract Tree abstract SupervisedModel type DecisionTree <: Tree, SupervisedMod
julia - Julia 表达式中类似列表理解的扩展？
在 Julia 中构建复杂表达式时，是否可以使用列表推导式之类的东西？例如，假设我有一些符号和类型，并想从它们构建一个类型。现在，我必须做类似的事情。 syms = [:a, :b, :c] typ
julia - Julia 的MATLAB历史计数？
在 MATLAB 中，[N,edges,bin] = histcounts (___) 可以获得相应元素的 bin 索引。 Julia 有什么等价的功能吗？谢谢! 我已经尝试过 StatsBase.j
julia - Julia 中的命令超时
我有一个 Julia 脚本，它反复调用 C++ 程序来执行优化。 C++ 程序写入一个文本文件，然后我让 Julia 读取结果并决定下一步做什么。问题是偶尔(可能是 1000 多次)C++ 程序卡住(
julia - 如何编译特定版本的 Julia
我使用了一些需要特定版本的 Julia 包(即 ≥ v0.3 和 0.4 ≤)。我找不到编译 Julia 的方法来自特定版本的源代码(我正在使用 Linux )。有没有办法做到这一点，我不知道？ Gi

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

dataframe - 如何在 Julia 中将 IndexedTable 转换为 DataFrame？