gpt4 book ai didi

python - R 用户的 Numpy?

转载 作者:太空狗 更新时间:2023-10-29 20:36:17 24 4
gpt4 key购买 nike

这里是 R 和 Python 的长期用户。我使用 R 进行日常数据分析,使用 Python 处理文本处理和 shell 脚本等较重的任务。我正在处理越来越大的数据集,当我得到这些文件时,这些文件通常是二进制文件或文本文件。在大多数情况下,我通常做的事情是应用统计/机器学习算法并创建统计图形。我有时将 R 与 SQLite 一起使用,并为迭代密集型任务编写 C;在研究 Hadoop 之前,我正在考虑在 NumPy/Scipy 上投入一些时间,因为我听说它具有更好的内存管理 [并且对于具有我背景的人来说,向 Numpy/Scipy 的过渡似乎没有那么大] - 我想知道是否有人有经验使用这两者并可以评论这方面的改进,以及 Numpy 中是否有处理此问题的习语。 (我也知道 Rpy2,但想知道 Numpy/Scipy 是否可以满足我的大部分需求)。谢谢-

最佳答案

在寻找进行机器学习和统计的环境时,R 的优势无疑是其库的多样性。据我所知,SciPy + SciKits 不能替代 CRAN。

关于内存使用,R 使用按值传递范例,而 Python 使用按引用传递。按值传递可以导致更“直观”的代码,按引用传递可以帮助优化内存使用。 Numpy 还允许对数组进行“查看”(一种没有制作副本的子数组)。

关于速度,在访问数组中的单个元素时,纯 Python 比纯 R 更快,但在处理 numpy 数组时这种优势消失了 (benchmark)。幸运的是,Cython 可以让您轻松获得显着的速度提升。

如果处理大数据,我发现 Python (HDF5) 对基于存储的数组的支持更好。

我不确定您是否应该放弃一个而使用另一个,但 rpy2 可以帮助您探索有关可能转换的选项(数组可以在 R 和 Numpy 之间穿梭而无需制作副本)。

关于python - R 用户的 Numpy?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3545057/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com