gpt4 book ai didi

python - 大型稀疏矩阵及其元数据的理想结构(或可能性)

转载 作者:太空宇宙 更新时间:2023-11-03 17:28:10 25 4
gpt4 key购买 nike

我正在处理约 260k 行、3M 列和 26M 非零值(以 Matrix Market 格式存储)的稀疏矩阵。我还有描述每行和每列元数据的 JSON 文件。我需要对该矩阵执行矩阵运算,即矩阵乘积,尽管肯定需要其他运算。我一直在使用我的矩阵和字典(来自 JSON),每个字典将行/列索引链接到其元数据值。尽管它有效,但它并不理想。

我确实想知道,还有更好的选择吗?我知道 Pandas/Dato 数据框,但在我看来,矩阵部分(及其操作)以某种方式被降级。我一直在关注 blaze 项目(Dask、xray,主要是这些核心外技术)。我想知道处理这种情况的标准方法(或最合适的方法)是什么。

非常感谢任何见解。谢谢。

最佳答案

最新版本的pandas具有“sparse”数据结构,包括DataFrameSeriesPanel,可以压缩任何常见值,包括NaN,而不仅仅是0。 numpy 在幕后支持 Pandas和 optionally通过 scipy ,其中有 scipy.sparse用于直接处理数学稀疏(主要是 0 填充)矩阵的模块。 “稀疏”Pandas 对象有 experimental API也可以转换为 scipy.sparse 对象。

关于python - 大型稀疏矩阵及其元数据的理想结构(或可能性),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32291278/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com