gpt4 book ai didi

python - 将大型 SAS 数据集转换为 hdf5

转载 作者:太空狗 更新时间:2023-10-29 19:29:40 27 4
gpt4 key购买 nike

我有多个大型 (>10GB) SAS 数据集,我想将其转换为在 pandas 中使用,最好在 HDF5 中使用。有许多不同的数据类型(日期、数字、文本),一些数字字段也有不同的缺失值错误代码(即值可以是 .、.E、.C 等)我希望保留列名和标签元数据。有没有人找到一种有效的方法来做到这一点?

我尝试使用 MySQL 作为两者之间的桥梁,但在传输时出现了一些超出范围的错误,而且速度非常慢。我还尝试以 Stata .dta 格式从 SAS 导出,但 SAS (9.3) 以与 pandas 中的 read_stat() 不兼容的旧 Stata 格式导出。我还尝试了 sas7bdat 包,但从描述来看它还没有经过广泛测试,所以我想以另一种方式加载数据集并比较结果以确保一切正常。

额外的细节:我要转换的数据集是来自 WRDS 的 CRSP、Compustat、IBES 和 TFN 的数据集。

最佳答案

我过去在这方面运气不佳。我们(我工作的地方)只是使用制表符分隔的文件在 SAS 和 Python 之间传输——我们经常这样做。

也就是说,如果您使用的是 Windows,您可以尝试设置 ODBC 连接并以这种方式写入文件。

关于python - 将大型 SAS 数据集转换为 hdf5,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21667547/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com