python - Pandas read_hdf 对于非数字数据非常慢-6ren

python - Pandas read_hdf 对于非数字数据非常慢

转载作者：太空狗更新时间：2023-10-30 01:12:18

28

4

当使用 pandas.read_hdf() 读取大型 hdf 文件时，我的读取时间非常慢。我的 hdf 有 5000 万行，3 列是整数，2 列是字符串。使用具有表格格式和索引的 to_hdf() 编写此代码花费了将近 10 分钟。虽然这也很慢，但我并不太担心，因为读取速度更重要。

我试过保存为固定/表格格式，有/没有压缩，但是读取时间在 2-5 分钟之间。相比之下，相同数据的 read_csv() 需要 4 分钟。

我也尝试过直接使用 pytables 读取 hdf。这在 6 秒时要快得多，这将是我希望看到的速度。

h5file = tables.open_file("data.h5", "r")
table = h5file.root.data.table.read()

我注意到文档中的所有速度比较都只使用数字数据，而我自己运行这些数据获得了相似的性能。

请问有什么办法可以优化读取性能吗？

编辑

这是一个数据样本

               col_A     col_B    col_C     col_D                 col_E
30649671  1159660800  10217383        0  10596000                LACKEY
26198715  1249084800   0921720        0         0           KEY CLIFTON
19251910   752112000   0827092      104    243000                WEMPLE
47636877  1464739200  06247715        0         0                 FLOYD
14121495  1233446400  05133815        0    988000        OGU ALLYN CH 9
41171050  1314835200  7C140009        0     39000             DEBERRY A
45865543  1459468800   0314892       76    254000               SABRINA
13387355   970358400  04140585       19   6956000              LA PERLA
4186815    849398400  02039719        0  19208000  NPU UNIONSPIELHAGAN1
32666568   733622400  10072006        0   1074000                 BROWN

以及数据框上的信息:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52046850 entries, 0 to 52046849
Data columns (total 5 columns):
col_A        int64
col_B        object
col_C        int64
col_D        int64
col_E        object
dtypes: int64(3), object(2)
memory usage: 1.9+ GB

最佳答案

这是一个小演示:

生成样本 DF(100 万行):

N = 10**6

df = pd.DataFrame({
    'n1': np.random.randint(10**6, size=N),
    'n2': np.random.randint(10**6, size=N),
    'n3': np.random.randint(10**6, size=N),
    's1': pd.util.testing.rands_array(10, size=N),
    's2': pd.util.testing.rands_array(40, size=N),
})

让我们以 CSV、HDF5(固定、表格和表格 + data_columns=True)和 Feather 将其写入磁盘格式

df.to_csv(r'c:/tmp/test.csv', index=False)
df.to_hdf(r'c:/tmp/test_fix.h5', 'a')
df.to_hdf(r'c:/tmp/test_tab.h5', 'a', format='t')
df.to_hdf(r'c:/tmp/test_tab_idx.h5', 'a', format='t', data_columns=True)

import feather
feather.write_dataframe(df, 'c:/tmp/test.feather')

阅读:

In [2]: %timeit pd.read_csv(r'c:/tmp/test.csv')
1 loop, best of 3: 4.48 s per loop

In [3]: %timeit pd.read_hdf(r'c:/tmp/test_fix.h5','a')
1 loop, best of 3: 1.24 s per loop

In [4]: %timeit pd.read_hdf(r'c:/tmp/test_tab.h5','a')
1 loop, best of 3: 5.65 s per loop

In [5]: %timeit pd.read_hdf(r'c:/tmp/test_tab_idx.h5','a')
1 loop, best of 3: 5.6 s per loop

In [6]: %timeit feather.read_dataframe(r'c:/tmp/test.feather')
1 loop, best of 3: 589 ms per loop

条件阅读 - 让我们只选择那些行 n2 <= 100000

In [7]: %timeit pd.read_hdf(r'c:/tmp/test_tab_idx.h5','a', where="n2 <= 100000")
1 loop, best of 3: 1.18 s per loop

我们需要选择的数据越少(过滤后)- 速度越快:

In [8]: %timeit pd.read_hdf(r'c:/tmp/test_tab_idx.h5','a', where="n2 <= 100000 and n1 > 500000")
1 loop, best of 3: 763 ms per loop

In [10]: %timeit pd.read_hdf(r'c:/tmp/test_tab_idx.h5','a', where="n2 <= 100000 and n1 > 500000 and n3 < 50000")
1 loop, best of 3: 379 ms per loop

更新:对于 Pandas 版本 0.20.0+，我们可以直接写入和读取 Feather 格式(感谢 @jezrael for the hint):

In [3]: df.to_feather(r'c:/tmp/test2.feather')

In [4]: %timeit pd.read_feather(r'c:/tmp/test2.feather')
1 loop, best of 3: 583 ms per loop

生成的 DF 示例:

In [13]: df
Out[13]:
            n1      n2      n3          s1                                        s2
0       719458  808047  792611  Fjv4CoRv2b  2aWQTkutPlKkO38fRQh2tdh1BrnEFavmIsDZK17V
1       526092  950709  804869  dfG12EpzVI  YVZzhMi9sfazZEW9e2TV7QIvldYj2RPHw0TXxS2z
2       109107  801344  266732  aoyBuHTL9I  ui0PKJO8cQJwcvmMThb08agWL1UyRumYgB7jjmcw
3       873626  814409  895382  qQQms5pTGq  zvf4HTaKCISrdPK98ROtqPqpsG4WhSdEgbKNHy05
4       212776  596713  924623  3YXa4PViAn  7Y94ykHIHIEnjKvGphYfAWSINRZtJ99fCPiMrfzl
5       375323  401029  973262  j6QQwYzfsK  PNYOM2GpHdhrz9NCCifRsn8gIZkLHecjlk82o44Y
6       232655  937230   40883  NsI5Y78aLT  qiKvXcAdPVbhWbXnyD3uqIwzS7ZsCgssm9kHAETb
7        69010  438280  564194  N73tQaZjey  ttj1IHtjPyssyADMYiNScflBjN4SFv5bk3tbz93o
8       988081    8992  968871  eb9lc7D22T  sb3dt1Ndc8CUHyvsFJgWRrQg4ula7KJ76KrSSqGH
9       127155   66042  881861  tHSBB3RsNH  ZpZt5sxAU3zfiPniSzuJYrwtrytDvqJ1WflJ4vh3
...        ...     ...     ...         ...                                       ...
999990  805220   21746  355944  IMCMWuf97L  bj7tSrgudA5wLvWkWVQyNVamSGmFGOeQlIUoKXK3
999991  232596  293850  741881  JD0SVS5uob  kWeP8DEw19rwxVN3XBBcskibMRGxfoToNO9RDeCT
999992  532752  733958  222003  9X4PopnltN  dKhsdKFK1EfAATBFsB5hjKZzQWERxzxGEQZWAvSe
999993  308623  717897  703895  Fg0nuq63hA  kHzRecZoaG5tAnLbtlq1hqtfd2l5oEMFbJp4NjhC
999994  841670  528518   70745  vKQDiAzZNf  M5wdoUNfkdKX2VKQEArvBLYl5lnTNShjDLwnb8VE
999995  986988  599807  901853  r8iHjo39NH  72CfzCycAGoYMocbw3EbUbrV4LRowFjSDoDeYfT5
999996  384064  429184  203230  EJy0mTAmdQ  1jfUQCj2SLIktVqIRHfYQW2QYfpvhcWCbRLO5wqL
999997  967270  565677  146418  KWp2nH1MbM  hzhn880cuEpjFhd5bd7vpgsjjRNgaViANW9FHwrf
999998  130864  863893    5614  L28QGa22f1  zfg8mBidk8NTa3LKO4rg31Z6K4ljK50q5tHHq8Fh
999999  528532  276698  553870  0XRJwqBAWX  0EzNcDkGUFklcbKELtcr36zPCMu9lSaIDcmm0kUX

[1000000 rows x 5 columns]

关于python - Pandas read_hdf 对于非数字数据非常慢，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43871626/

28

4

0

文章推荐： c# - 从 WSE 3.0 客户端请求中删除 WS-Addressing/WS-Security 部分

文章推荐： python - 为什么 codecs.iterdecode() 吃空字符串？

python - 为什么 DataFrame.loc[[1]] 比 df.ix [[1]] 慢 1,800 倍，比 df.loc[1] 慢 3,500 倍？
自己试试看: import pandas as pd s=pd.Series(xrange(5000000)) %timeit s.loc[[0]] # You need pandas 0.15.1
Delphi (DataSnap) 慢
我最近开始使用 Delphi 中的 DataSnap 来生成 RESTful Web 服务。在遵循 Marco Cantu 本人和互联网上其他几个人的指导后，我成功地使整个“链条”正常工作。但是有一
java - 2核Mac上有多个Java线程-慢
我一直在为操作系统类(class)编写以下代码，但结果有些奇怪。该代码创建x线程并同时运行它们，以便将两个平方矩阵相乘。每个线程将输入矩阵的Number_of_rows/Number_of_threa
r - 为什么并行包比只使用apply 慢？
我正在尝试确定何时使用 parallel包以加快运行某些分析所需的时间。我需要做的一件事是创建矩阵，比较具有不同行数的两个数据框中的变量。我在 StackOverflow 上问了一个关于有效方法的问题
haskell - 为什么 <$> 慢？
我最近对我的代码进行了一些清理，并在此过程中更改了此内容(不完全是真实的代码): read = act readSTRef test1 term i var = do t v^!terms.
c# - 分页查询如何*慢*？
我正在计时查询和同一个查询的执行时间，分页。 foreach (var x in productSource.OrderBy(p => p.AdminDisplayName) .Wher
c# - BackgroundWorker 慢
我正在开发一个项目 (WPF)，我有一个 Datagrid 从数据库加载超过 5000 条记录，所以我使用 BackgroundWorker 来通知用户数据正在加载，但它太慢了，我需要等待将近 2分钟
MYSQL 慢 ORDER BY
我在查询中添加 ORDER BY 时遇到问题。没有 ORDER BY 查询大约需要 26ms，一旦我添加 ORDER BY，它大约需要 20s。我尝试了几种不同的方法，但似乎可以减少时间。尝试 F
Android 慢 GridView
我是 Android 开发新手，遇到了性能问题。当我的 GridView 有太多项目时，它会变得有点慢。有什么方法可以让它运行得更快一些吗？这是我使用的代码: 适配器: public class C
java/mysql/慢
这里的要点是: 1.设置query_cache_type = 0;重置查询缓存； 2.在 heidisql(或任何其他客户端 UI)中运行任何查询 --> 执行，例如 45 毫秒 3.使用以下代码运行
PostgreSQL 慢 DISTINCT WHERE
想象下表: CREATE TABLE drops( id BIGSERIAL PRIMARY KEY, loc VARCHAR(5) NOT NULL, tag INT NOT
sql - 慢 WHERE IN 查询结束
我的表 test_table 中的示例数据: date symbol value created_time 2010-01-09 symbol1
php - 很多查询 - 慢？
首先，如果已经有人问过这个问题，我深表歉意，至少我找不到任何东西。无论如何，我将每 5 分钟运行一次 cron 任务。该脚本加载 79 个外部页面，而每个页面包含大约 200 个我需要在数据库中检查
mysql - SQL查询/慢
我有下面的 SQL 代码，它来自 MySQL 数据库。现在它给了我期望的结果，但是查询很慢，我想我应该在进一步之前加快这个查询的速度。表agentstatusinformation有: PKEY(主
ios - 核心数据对象等级(慢)
我需要获取一个对象在 Core Data 中数千个其他对象之间的排名。现在，这是我的代码: - (void)rankMethod { //Fetch all objects NSFet
ios - ABAddressBookCopyArrayOfAllPeople 慢
我正在编写一个应用程序，我需要在其中读取用户的地址簿并显示他所有联系人的列表。我正在测试的 iPhone 有大约 100 个联系人，加载联系人确实需要很多时间。 ABAddressBookRef ad
javascript - InnerHTML 慢？
我正在使用 javascript 将 160 行添加到包含 10 列的表格中。如果我这样做: var cellText = document.createTextNode(value); cell.a
swift - UITableView 慢
我是 Swift 的新手，我已经设置了一个 tableView，它从 JSON 提要中提取数据并将其加载到表中。表格加载正常，但是当表格中有超过 10 个单元格时，它会变得缓慢且有些滞后，特别是它到
c# - 慢 DeterminePostBackMode()
我在 InitializeCulture 和 Page_PreInit 事件之间的 asp.net 页面中遇到性能问题。当我重写 DeterminePostBackMode() 时，我发现问题出在 b
SSL 慢。建立安全连接花费的时间太长
我在 Hetzner 上有一个带有 256GB RAM 6 个 CPU(12 个线程) 的专用服务器，它位于德国。我有 CENTOS 7.5。 EA4。我的问题是 SSL。每天大约 2 小时，我们在

首页

博学

6Ren·AI

商城

python - Pandas read_hdf 对于非数字数据非常慢