gpt4 book ai didi

dataframe - 在 Julia 中打开或读取大型矩阵更好吗?

转载 作者:行者123 更新时间:2023-12-04 16:36:41 25 4
gpt4 key购买 nike

我正在从其他编程语言切换到 Julia,而 Julia 会让你沉迷其中的一件事就是内存。我认为这可能是一件好事,一种你实际上必须考虑一些内存管理的编程语言会迫使编码人员编写更高效的代码。这与 R 之类的东西相反,在 R 中,您似乎可以加载大于分配内存的数据集。当然,你实际上不能这样做,所以我想知道 R 是如何解决这个问题的?

我在其他编程语言中所做的部分工作是处理大型表格数据集,通常转换为 R 数据框或矩阵。我认为 Julia 的处理方式是尽可能地流式传输数据,所以我的主要问题是:

使用 readline("my_file.txt") 访问数据更好还是使用 open("my_file.txt", "w")?如果可能的话,一次访问一个大型数据集以提高速度不是更好吗?还是始终流式传输数据会更好?

我希望这是有道理的。任何进一步的资源将不胜感激。

最佳答案

我不是 Julia 数据生态系统软件包的广泛用户,但 CSV.jl offers the Chunks and Rows File 的替代品,这些可以让您以增量方式处理文件。

虽然它可能与您的用例无关,但@Przemyslaw Szufel 的回答中提到的机制也在其他地方使用。我熟悉的两个是 TiffImages.jlNRRD.jl 包,这两个 I/O 包主要用于将图像数据加载到 Julia 中。有了这些,您可以在笔记本电脑上加载 TB 大小的数据集。可能有更多的包使用相同的机制,许多包维护者可能会很高兴收到支持可选内存映射的拉取请求(如果适用)。

关于dataframe - 在 Julia 中打开或读取大型矩阵更好吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69035769/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com