python - 如何确保大型 HDF5 中的唯一行-6ren

python - 如何确保大型 HDF5 中的唯一行

转载作者：行者123 更新时间：2023-11-28 22:51:44

25

4

我正致力于在 HDF5 表中实现一组相对较大的(5,000,000 条并且还在增加)时间序列数据。我需要一种方法来删除重复项，每天一次，每天“运行”一次。就我目前的数据检索过程而言，在数据检索过程中写入重复项比确保没有重复项要容易得多。

从 pytable 中删除重复项的最佳方法是什么？我所有的阅读都指向我将整个表导入 Pandas ，并获得一个唯一值的数据框，然后通过每次数据运行重新创建表将其写回磁盘。不过，这似乎与 pytables 的观点背道而驰，而且我不知道整个数据集能否有效地装入内存。我应该补充一点，它是定义唯一记录的两列。

没有可重现的代码，但谁能给我 pytables 数据管理建议？

非常感谢...

最佳答案

请参阅此相关问题:finding a duplicate in a hdf5 pytable with 500e6 rows

为什么说这是“反pytables的点”？完全有可能存储重复项。用户对此负责。

您也可以试试这个:merging two tables with millions of rows in python ，其中您使用的合并函数只是 drop_duplicates()。

关于python - 如何确保大型 HDF5 中的唯一行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21246039/

25

4

0

文章推荐： python - 从类访问私有(private)模块变量

文章推荐： python - sklearn 0.14.1 RBM 在没有 NaN 或 Inf 的情况下死亡

文章推荐： python - 按 timedelta 修剪 TimeSeries

javascript - 确保 this 引用了该对象
我有以下对象: dog = { location: { x: 52.1089, y: 16.2323 }, f: function(message) { alert
sql - TSQL，确保@符号前至少出现一个字符
在 TSQL 中，如果我要搜索有效的 .com 电子邮件地址，我需要确保有一个 @ 符号，它以 .com 结尾，并且在 @ 前后至少有一个字符。 SELECT * FROM CUSTOMER WHER
excel - 确保 Excel 单元格内的有效日期
我正在尝试准备一个信用卡交易列表，以便在 Excel 2010 中进行透视和进一步分析(满足个人需求)。问题是我的银行机构没有遵循标准的日期格式，所以有时日期会显示为 Jun. 1, 2013 , 有
transactions - 确保 riak 的正确性？
看来您不能在 riak 中进行交易。如何确保数据正确？假设我们要插入评论。在 redis 我会做 commentId=incr commentCount multi SET comment_post
json - 确保 JSON 模式中的一个属性不为空
对于下面给定的模式，是否可以确保至少一个属性包含一个值(即 minLength 为 1): { "$schema": "http://json-schema.org/draft-04/sche
haxe - 确保 Haxe 程序将在所有平台上运行
我计划在 Haxe 的一个子集中编写 Haxe 库，这些库将编译为每种 Haxe 目标语言。有什么方法可以验证 Haxe 程序是否可以编译为所有目标语言，是否可以在不手动测试每个目标平台上的编译代码的
selenium - 确保 webdriver 打开的浏览器始终处于焦点
如果浏览器窗口未聚焦，则当前页面上的所有 webdriver 标识都失败。如何使用 webdriver 使浏览器成为焦点？最佳答案 ((JavascriptExecutor) webDriver)
PHP - 确保 GET 请求来自特定域
我从这样的 HTML GET 请求中获取图像链接... www.example.com?image=www.anotherdomain.com/image.jpg if (isset($_GET['i
erlang - 确保 epmd 已启动
我有一个 eunit 测试，它生成一个唯一的节点名称并开始分发: {A,B,C} = now(), Nodename = list_to_atom(lists:flatten(io_lib:forma
.net - 确保 Web 服务安全
我正在完成我的 iPhone 应用程序。我只是担心我们的网络服务器级别的安全性。数据通过网络服务被传送到 iPhone 应用程序。我可以在网络服务上采取哪些安全措施，以免受到攻击？谢谢最佳答案
cocoa - 确保 Cocoa 中的子进程已死亡
我正在编写一个应用程序，该应用程序启动一个运行简单 Web 服务器的子进程。我正在使用 NSTask 并通过管道与其进行通信，一切看起来或多或少都很好。但是，如果我的程序崩溃，子进程将保持事件状态，并
delphi - 确保 ShowMessage 保持在最前面
我有一些应用程序，我调用 ShowMessage('Complete!');在长时间操作结束时。大多数时候，这效果很好，但每隔一段时间，消息对话框就会显示在主窗体后面。有什么方法可以确保 Show
javascript - 确保 meteor 聊天的安全
我通过将消息插入集合并让模板使用 {{#each}} 打印出集合来创建一个简单的聊天。我不太熟悉安全性，但是有没有办法让它符合 EFF 规定？ https://www.eff.org/secure-
Typescript - 确保 id 存在于数组中
我有一个商店，我想在其中正确管理 id。假设我有以下帖子存储: type Post = { id: number; title: string; body?: string; } type
javascript - 确保 javascript 函数按特定顺序执行
我有一个使用 ajax post 方法和数据表的程序。经过几周的摆弄，我确定我根本不明白 javascript 是如何工作的。这是我的 JavaScript: $('#SaveTimeSheet').
azure - 确保 Azure 服务总线永远不会丢失一条消息
我有一个系统，如果从 Azure 服务总线丢失消息将是一场灾难，也就是说，数据将永远丢失，并且没有实际方法可以在不造成重大中断的情况下修复损坏。在这种情况下我可以完全依赖 ASB 吗？ (即使它
scala - 确保 ScalaTest 不并行运行
如何确保 scalatest 测试不会并行运行？在 0.12 之前，我有一个 sbt 设置: parallelExecution in Test := false 新版本引入了一些复杂的机制。这种更简
javascript - 确保 promise 的执行顺序
我的端点有两个如下所示的 promise : request.post({ url: url, json: smsSTART, header
angularjs - 确保 DOM 更改在转换之前完成
简短版本当 ui-router 转换到新 View 时(以我不完全理解的方式使用 ngAnimate)，它会添加类 ng-leave 和 ng-leave-active 到当前 View 。它还将类
SQL 查询 - 确保 () 中的每个值都存在一行
目前正在努力寻找验证 2 个表的方法(有效地验证表 A 的大量行) 我有两张 table 表A ID A B C 表格匹配 ID Number A 1 A 2 A 9 B 1

首页

博学

6Ren·AI

商城

python - 如何确保大型 HDF5 中的唯一行