python - 为什么 Pandas 和 R 之间数据帧的内存使用量有如此大的差异？-6ren

python - 为什么 Pandas 和 R 之间数据帧的内存使用量有如此大的差异？

转载作者：行者123 更新时间：2023-12-04 01:05:23

25

4

我正在处理来自 https://opendata.rdw.nl/Voertuigen/Open-Data-RDW-Gekentekende_voertuigen_brandstof/8ys7-d773 的数据(使用“导出器”按钮下载 CSV 文件)。
当我使用 read.csv() 将数据导入 R 时它需要 3.75 GB 的内存，但是当我使用 pd.read_csv() 将它导入到 Pandas 中时它占用 6.6 GB 的内存。
为什么这个差别这么大？
我使用以下代码来确定 R 中数据帧的内存使用情况:

library(pryr) 
object_size(df)

和 python :

df.info(memory_usage="deep")

最佳答案

我发现该链接非常有用，并认为值得从评论和总结中脱颖而出:
Reducing Pandas memory usage #1: lossless compression

仅加载感兴趣的列 usecols

df = pd.read_csv('voters.csv', usecols=['First Name', 'Last Name'])

使用较小的 dtype 缩小数字列

int64 : (默认) -9223372036854775808 至 9223372036854775807

int16 :-32768 到 32767

int8 :-128 到 127

df = pd.read_csv('voters.csv', dtype={'Ward Number': 'int8'})

使用 dtype category 收缩分类数据

df = pd.read_csv('voters.csv', dtype={'Party Affiliation': 'category'})

大部分转换 nan数据到 dtype Sparse

sparse_str_series = series.astype('Sparse[str]')
sparse_int16_series = series.astype('Sparse[int16]')

关于python - 为什么 Pandas 和 R 之间数据帧的内存使用量有如此大的差异？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66670471/

25

4

0

文章推荐： sql - 数字格式为负十进制数给出 + 号

文章推荐： session - Vaadin session setMaxInactiveInterval UI 响应不一致

文章推荐： javascript - CKEditor 在构建后破坏了 Angular

文章推荐： coredump - 转储文件上的 DebugDiag2 分析工具超时

c# - 随机 RAM 使用量
我希望有人能解释为什么我的应用程序在加载时使用不同数量的 RAM。我说的是直接使用 exe 的编译版本。这是一个非常基本的应用程序，在应用程序的启动中没有条件分支。然而，每次我启动它时，RAM 量都在
linux - 如何释放 Inode 使用量？
我有一个 inode 使用率为 100% 的磁盘驱动器(使用 df -i 命令)。但是在大量删除文件后，使用率仍然是 100%。那么正确的做法是什么？磁盘空间使用量较少的磁盘驱动器怎么可能有Ino
ethereum - 使用 if 语句时如何计算 gas 使用量
假设我与分支有一个智能合约，其中每个分支都有不同数量的操作。 if (someCondition) { // do operations costing 10 gas } else { //d
nearprotocol - 您如何估算 NEAR 智能合约方法调用的 gas 使用量？
是否有一种工具可以在提交到 NEAR 网络之前估算合约调用将产生多少 gas？最佳答案目前最好的估计是用runtime-standalone ，它可以处理交易而不必担心共识/网络。这意味着您可以创
caching - CacheServiceEmulator.exe > 3GB RAM 使用量？
我正在使用最新的 SDK 开发适用于 Windows Azure 的应用程序。目前我正在使用缓存实现 session 提供程序，但模拟器完全不成比例: 缓存被实现为“非常小的”辅助角色(最大 768
elasticsearch - 如何减少 Logstash 的 RAM 使用量？
我正在为我的 Logstash RAM 问题寻找答案，因为它几乎是 100%。我为它做了很多搜索，但他们没有为我工作。下面的代码是我的 logstash.conf 文件。我认为它需要一些小改动。 Lo
java - 我已经尝试了所有方法，但我无法限制最大 Java RAM 使用量
我已经阅读了这里有关此问题的所有其他问题以及互联网其他地方的许多文章。根据this site ，最大内存使用量遵循以下公式: Max memory = [-Xmx] + [-XX:MaxPermSiz
java - 如何在 Android 中以编程方式增加 RAM 使用量？
我需要以编程方式增加 Android 中的 RAM 使用量，以观察它随时间的变化。我该怎么做？我尝试生成很多自定义对象，但生成后意外地 RAM 使用量减少了...我更改了对象数量、结构等，但没有任何
docker - 如何限制 docker 容器内的 ArangoDB RAM 使用量？
我们使用带有 MMFiles 存储引擎的 ArangoDB 3.3.14(社区版)来处理相对较大的数据集(备份时会超过 30 GB)。我们使用 ECS 在 Docker 容器内运行它。我们的主机虚拟机
mysql - 在为 WordPress 站点排序此索引时，如何减少 MYSQL 使用量？
我收到了 Hostgator 发来的一条说明，表明他们限制了我对 MYSQL 的访问，因为我的网站使用了太多资源。通常，在这种情况下，我只会恢复备份以查看最近的更改是否会产生错误。但是，除了写了一些
delphi - 如何减少使用 Synapse TMimeMess 解码 MIME 时的巨大 RAM 使用量？
我使用 TMimeMess 来解码基于 SMTP 服务器的传入电子邮件在突触上。我发现用于解码 50MB MIME 消息(带有附件)，TMimeMess 使用了 600-800MB 的内存。在这里
android - 如何减少包含 1,000 个资源的 AIR Flash 应用程序中的内存 (RAM) 使用量？
我正在打包适用于 iOS 和 Android 的 Adobe Air 应用程序，并且我的 (RAM) 内存使用量超过 100MB。我的游戏(RPG)中有大量 Assets 。 Assets 的数量

首页

博学

6Ren·AI

商城

python - 为什么 Pandas 和 R 之间数据帧的内存使用量有如此大的差异？