gpt4 book ai didi

dataframe - 在 Julia 中导出到 CSV 文件

转载 作者:行者123 更新时间:2023-12-02 19:11:09 26 4
gpt4 key购买 nike

警告:这些都是菜鸟问题,因为我对 Julia 来说真的很陌生。

在 R 中,有一个相当“统一”的函数可以使用 read.table() 导出(几乎)任何类型的对象。看起来 Julia 的情况稍微复杂一些。如果我理解得好的话:

  1. 某些标准类型(例如数组、字典和元组)始终可以使用 writedlm 导出,但并不总是使用 CSV.write 导出。相反,DataFrame 始终可以使用 CSV.write 导出,但不能使用 writedlm 导出。它是否正确?因此,不存在与 R 的 write.table() 类似的“通用导出器”吗?

  2. 除了写入 CSV 文件之外,CSV.write 似乎还会返回导出文件的名称。相反,writedlm 则不然。这对我来说是个问题。实际上,我需要一种将 DataFrame 导出到 CSV 文件的方法,其中的函数不返回值,即只有副作用的函数,例如 writedlm 。在 Julia 中有什么办法可以实现这一点吗?

    编辑:要了解更多详细信息,我的问题是在 CSV.write 之后,ans 指向导出的名称文件;而 writedlm 的情况并非如此。插图herehere 。即使有 @Przemyslaw Szufel 提出的想法,我也无法摆脱这个问题。 (这是一个相当微妙的问题,但我实际上正在尝试为 Julia 编写一个 emacs lisp 后端。这种不一致,例如不知道 ans 是否会 nothing或导出对象后的文件名,会在这次冒险中增加更多痛苦...:-) 理想情况下,我只是希望 CSV.write 可以保持沉默。)

谢谢!

最佳答案

我从第二个问题开始,因为它很短。只需在行尾使用分号 ; 就不会返回任何值!

CSV.write(file, table);

但是,如果您想确保 ans 没有任何值,请在末尾添加 nothing:

CSV.write(file, table);nothing;

如果你愿意,你可以将它打包到一个函数中:

function my_write(file, table)
CSV.write(file, table)
nothing
end

或者,如果您想要一个单行代码将其包装到 lambda 中:

julia> (() -> begin;CSV.write("file.csv", df);nothing;end)()

julia> ans == nothing
true

在每种情况下都不会观察到副作用(返回值)。

第一个问题比较棘手。用于在文件中存储数据的可能格式显然需要取决于数据的格式。基本上,Julia 最常见的选项包括(我从最通用的选项开始,到最具体的选项结束):

  • 通过serialize命令进行序列化
  • 通过 BSON.jl 包生成二进制 JSON
  • 通过 JSON.jl 或稍新的 JSON3.jl 包实现 JSON(截至目前,两者都是不错的选择)
  • JSONTables.jl 用于存储为 JSON 的表格数据
  • DelimitedFiles 用于存储 Array
  • CSV.jl 用于存储 DataFrame

现在,特定软件包的选择将取决于您的目标。序列化是 killer 级机制——最快且最通用。任何物体都可以通过这种方式在尽可能短的时间内存储。没有任何东西是没有代价的——当你更新 Julia 版本或你的包时,你可能无法读回你的对象。因此它是为短期存储而设计的。

中间的是基于 JSON 的存储系统。基本上,所有内容都可以存储为 JSON,并且可以稍后用 Julia 或其他编程语言读取。基于文本的 JSON 也可以在简单的文本编辑器中打开。

最后,CSV.jlSerialization 可以分别用于表和数组。然而,将 DataFrame 转换为 Array 或将 Array 转换为 DataFrame 是很容易的:

julia> df = DataFrame(a=1:3, b=rand(3),c=["a","b","c"])
3×3 DataFrame
│ Row │ a │ b │ c │
│ │ Int64 │ Float64 │ String │
├─────┼───────┼──────────┼────────┤
│ 1 │ 1 │ 0.440796 │ a │
│ 2 │ 2 │ 0.44232 │ b │
│ 3 │ 3 │ 0.282064 │ c │

julia> Matrix(df)
3×3 Array{Any,2}:
1 0.440796 "a"
2 0.44232 "b"
3 0.282064 "c"

您可以看到,在此过程中唯一丢失的是类型信息,如果您通过 DelimitedFiles 导出数据,则类型信息并不那么重要。

相反的转换也很简单:

julia> rand(3,3) |> Tables.table |> DataFrame
3×3 DataFrame
│ Row │ Column1 │ Column2 │ Column3 │
│ │ Float64 │ Float64 │ Float64 │
├─────┼──────────┼───────────┼──────────┤
│ 1 │ 0.326649 │ 0.0278134 │ 0.111221 │
│ 2 │ 0.769378 │ 0.996156 │ 0.237821 │
│ 3 │ 0.802094 │ 0.726497 │ 0.619013 │

总之,如您所见,一切都可以在 Julia 中完成。

关于dataframe - 在 Julia 中导出到 CSV 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64267362/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com