- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在使用一个 20GB(压缩的).csv 文件,我使用带有 chunksize=10,000 参数的 pandas pd.read_csv()
从中加载几列。
但是,这个参数是完全任意的,我想知道一个简单的公式是否可以给我更好的 block 大小,从而加快数据的加载。
有什么想法吗?
最佳答案
没有“最佳 block 大小”[*]。因为chunksize
只告诉您每个 block 的行数,而不是单个行的内存大小,因此尝试对此制定经验法则毫无意义。 ([*] 虽然通常我只见过 100..64K 范围内的 block 大小)
要获得内存大小,您必须将其转换为内存大小每 block 或每行...
通过查看您的列数、它们的数据类型以及每列的大小;使用 df.describe()
,或者更深入的内存使用情况,按列:
print 'df Memory usage by column...'
print df.memory_usage(index=False, deep=True) / df.shape[0]
确保您在读取 csv 时不会耗尽所有可用内存:使用您的操作系统 (Unix top
/Windows 任务管理器/MacOS 事件监视器/等)查看正在使用的内存量。
pandas 的一个缺陷是缺失值/NaN 值、Python str 和对象占用 32 或 48 个字节,而不是 np.int32 预期的 4 个字节或 np.int32 预期的 1 个字节。 int8 列。 即使是一整列中的一个 NaN 值也会导致整列内存爆炸,并且 pandas.read_csv() dtypes, converters, na_values
arguments 不会阻止 np.nan,并且会忽略所需的 dtype(!)。解决方法是在插入数据帧之前手动对每个 block 进行后处理。
并使用所有标准 pandas read_csv
技巧,例如:
dtypes
为每一列减少内存使用 - 绝对避免每个条目都被读取为字符串,尤其是像日期时间这样的长唯一字符串,这对内存使用来说很糟糕usecols
如果您只想保留列的子集关于python - pandas read_csv 中最大化速度的最佳 block 大小是多少?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35235010/
这个问题在这里已经有了答案: C sizeof a passed array [duplicate] (7 个回答) 8年前关闭。 在一个函数中,我声明了一个数组: int char_count_ar
简而言之,文件系统如何与 block 设备通信? 最佳答案 我对 block 大小不太了解。我认为 ext4(Linux)的文件系统的 block 大小是 4KB,考虑到现代处理器的页面大小(4KB)
我知道 tinyint(1) 和 tinyint(2) 具有相同的存储空间范围。 唯一的区别是显示宽度不同。这是否意味着 tinyint(1) 将存储所有类型的整数但只正确显示 0 到 9 的范围?而
今晚我已经研究了以下代码几个小时,但我只是摸不着头脑。 当使用函数从标准输入填充数组时,我不断收到“大小 8 的无效写入”和“大小 8 的无效读取”。 如有任何帮助,我们将不胜感激...我知道 Sta
我有一个 valgrind 错误,我不知道如何摆脱它们: ==5685== Invalid read of size 8 ==5685== at 0x4008A1: main (in /home
我对 Hadoop 的概念有点困惑。 Hadoop block 大小、拆分大小和 block 大小 之间有什么区别? 提前致谢。 最佳答案 block 大小和 block 大小相同。 拆分大小 可能与
我想不出一个好的标题,所以希望可以。 我正在做的是创建一个离线 HTML5 webapp。 “出于某些原因”我不希望将某些文件放在缓存 list 中,而是希望将内容放在 localStorage 中。
无法将 xamarin apk 大小减少到 80 MB 以下,已执行以下操作: 启用混淆器 配置:发布 平台:事件(任何 CPU)。 启用 Multi-Dex:true 启用开发人员检测(调试和分析)
我正在开发一个程序,需要将大量 csv 文件(数千个)加载到数组中。 csv 文件的尺寸为 45x100,我想创建一个尺寸为 nx45x100 的 3-d 数组。目前,我使用 pd.read_csv(
Hello World 示例的 React Native APK 大小约为 20M (in recent versions),因为支持不同的硬件架构(ARMv7、ARMv8、X86 等),而同一应用程
我有一个包含 n 个十进制元素的列表,其中每个元素都是两个字节长。 可以说: x = [9000 , 5000 , 2000 , 400] 这个想法是将每个元素拆分为 MSB 和 LSB 并将其存储在
如何设置 GtKTextView 的大小?我想我不能使用 gtk_widget_set_usize。 最佳答案 您不能直接控制小部件的大小,而是由其容器完成。您可以使用 gtk_widget_set_
这个问题在这里已经有了答案: c++ sizeof() of a class with functions (7 个答案) 关闭 5 年前。 结果是 12。 foobar 函数存储在内存中的什么位置
当我在 ffmpeg(或任何其他程序)中使用这样的命令时: ffmpeg -i input.mp4 image%d.jpg 所有图像的组合文件大小总是比视频本身大。我尝试减少每秒帧数、降低压缩设置、模
我是 clojurescript 的新手。 高级编译后出现“77 KB”的javascript文件是否正常? 我有一个 clojurescript 文件: 我正在使用 leinigen: lein c
我想要一个 QPixmap尺寸为 50 x 50。 我试过 : QPixmap watermark(QSize(50,50)); watermark.load(":/icoMenu/preparati
我正在尝试从一篇研究论文中重新创建一个 cnn,但我对深度学习还是个新手。 我得到了一个大小为 32x32x7 的 3d 补丁。我首先想执行一个大小为 3x3 的卷积,具有 32 个特征和步幅为 2。
我一直在尝试调整 View Controller 内的 View 大小,但到目前为止没有运气。基本上,我的 View 最底部有一个按钮,当方向从纵向更改为横向时,该按钮不再可见,因为它现在太靠下了。
如何使用此功能检查图像的尺寸?我只是想在上传之前检查一下... $("#LINK_UPLOAD_PHOTO").submit(function () { var form = $(this);
我用 C++ 完成了这个,因为你可以通过引用传递参数。我无法弄清楚如何在 JavaScript 中执行此操作。我的代码需要更改什么?我的输出是1 this.sizeOfBst = function()
我是一名优秀的程序员,十分优秀!