- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我在 h5py 之间遇到了一些非常奇怪的交互, PyTables (通过 Pandas ),C++ 生成了 HDF5文件。看来,h5check和 h5py似乎可以处理包含“/”的类型名称,但 pandas/PyTables不能。显然,我的理解存在差距,所以:
我在这里有什么不明白的?
血淋淋的细节
我在 HDF5 文件中有以下数据:
[...]
DATASET "log" {
DATATYPE H5T_COMPOUND {
H5T_COMPOUND {
H5T_STD_U32LE "sec";
H5T_STD_U32LE "usec";
} "time";
H5T_IEEE_F32LE "CIF/align/aft_port_end/extend_pressure";
[...]
这是通过 C++ API 创建的。 h5check实用程序表示该文件有效。
请注意,CIF/align/aft_port_end/extend_pressure
不是指向组/节点/叶的路径。它是一个标签,我们在内部使用它恰好有一些包含“/”作为分隔符的内部结构。我们不希望 HDF5 文件知道任何相关信息:它不应该关心。显然,如果“/”在任何 HDF5 名称中都是非法的,那么我们必须将该分隔符更改为其他内容。
使用 PyTables(好的,Pandas 但它在内部使用 PyTables)读取文件,我得到一个
>>> import pandas as pd
>>> store = pd.HDFStore('data/XXX-20150423-071618.h5')
>>> store
/home/XXX/virt/env/develop/lib/python2.7/site-packages/tables/group. py:1156: UserWarning: problems loading leaf ``/log``::
the ``/`` character is not allowed in object names: 'XXX/align/aft_port_end/extend_pressure'
The leaf will become an ``UnImplemented`` node.
我在这个 question 中问过这个问题和 got told '/' 是 illegal in the specification .然而,h5py 的事情变得奇怪了。 ...
使用h5py读取文件,我得到了我想要的:
>>> f['/log'].dtype
>>> dtype([('time', [('sec', '<u4'), ('usec', '<u4')]), ('CI
F/align/aft_port_end/extend_pressure', '<f4')[...]
这或多或少是我的出发点。
不用说,我很困惑。我是否设法创建了一个非法的 HDF5以某种方式通过 h5check 的文件?是PyTables不支持这种边缘情况? ...我很困惑。
很明显,我可以像这样写一个简单的包装器:
>>> import matplotlib.pyplot as plt
>>> silly = pd.DataFrame(f['/log']['CIF/align/aft_port_end/extend_pressure'])
>>> silly.plot()
>>> plt.show()
从HDF5中获取所有数据归档到Pandas .但是,由于之前的混淆,我不确定这是否是一个好主意。我最大的担心是如果数据非常大,转换可能无法扩展...
最佳答案
我浏览了一下 h5check source而且我找不到任何地方来测试名称是否包含斜杠。您可以检查它可能产生的错误消息:
grep error_push h5checker.c -A1
您提供的链接明确指出对象名称中不允许使用斜杠。所以是的,我认为您创建了一个非法但通过 h5check 的文件。该工具似乎更侧重于二进制数据布局。我能找到的最接近的相关检查是防止重复名称。
在我看来,仅此而已。 h5py
和其他库能够以某种方式创建或读取此非法文件的事实无关紧要。规范说“不要在对象名称中放置斜杠”,所以您不需要。故事结束。
如果您不相信,可以这样想:如果您设法创建了一个文件名中带有斜杠的常规文件,会发生什么?大多数程序假定文件名不包含斜杠,因此它们能够通过在斜杠字符处分割目录路径来对其进行分区。您的文件会破坏这种行为,因此会引入许多微妙的(和不太微妙的)错误。用户会提示,程序员会讨厌你,系统管理员会诅咒你。
同样可以安全地假设,在 PyTables
旁边,许多其他库和程序将无法处理变量名中的斜线。 HDF 的好处在于它有很多工具,而使用斜杠则失去了这一优势。您可能认为这并不重要,也许您的 HDF-5 文件仅供内部使用。然而,情况可能会在 5 年内发生变化,因为情况往往如此。
硬着头皮把'/'换成'|'在将变量写入 HDF5 之前。阅读它们时将它们放回原处。您通过实现此方法损失的时间,通过避免 future 的错误和用户投诉,您将赢回 x 倍 (for x>1)。
抱歉我的咆哮,但我希望能说服你。
关于python - HDF5 文件名称中的 '/' 混淆,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30070834/
任何帮助深表感谢。我正在尝试创建一个 SSIS 包来遍历文件夹中的文件并获取路径+文件名,最后执行存储的过程,参数为路径+文件名。我不确定如何获取路径+文件名并将其作为参数插入到存储过程中。我附上了截
我想编写一个小脚本来搜索确切的文件名,而不是文件名中的字符串。 例如,如果我使用资源管理器搜索“主机”,默认情况下我会得到多个结果。对于脚本,我只需要我指定的名称。我假设这可能吗? 我才真正开始编写脚
str(文件.key) = '1011/101011/文件名' newFileName = str(file.key) 但是,当我运行代码时,我得到: UnicodeEncodeError: 'asc
下面这段子程基本上可以算是比较不错的通用匹配了。(PS:我突然发现CODE_LITE把我的UBB转义了!!!晕,我只好自己转义了。。。) Dim objRegExp,Matc
PHP 无法处理带有 Unicode 字符的文件:当我在浏览器上访问 testSite/главная.php 时,它会抛出此错误。 Warning: Unknown: failed to open
我正在尝试包含 Dim在 Vlookup 中。 Dim filename As String filename = Format(DateAdd("d", -6, Now()), "mm-dd-yy"
在我的日常构建项目中,我们将其库存储到其版本名称目录中。 . 对于最新的,我们正在创建符号链接(symbolic link)作为“最新”。 前任。- ls -ltr drw-r--r-- 1 4096
重新安装了 Windows 10(版本 10.0.14393)。重新安装了以下内容: java java version "1.8.0_121" Java(TM) SE Runtime Environ
我想使用 Jekyll 和 GitHub Pages 构建文档站点。问题是 Jekyll 只接受 _posts 下的文件名具有精确的图案,如 YYYY-MM-DD-your-title-is-here
我不知道我发生了什么事。我想访问一个包含多个文件的目录,假设: folder\\1.txt 2.txt 3.txt.... 现在我想根据它们的出现情况来阅读它们,我的意思是首先是最低的,只是我想按升
如何将/放入文件名(即/不分隔路径的组成部分)? 最佳答案 你不知道。 UNIX 文件名中不允许使用斜线。 关于unix - 你如何获得 a/into 文件名?,我们在Stack Overflow上找
我需要复制一个大文件夹,并重命名其中的所有文件和文件夹(如果它们包含特定字符串)。基本上我想复制所有内容并将 10 的任何实例更改为 11。 例如,如果我有一个结构如下的文件夹: mainfolder
我有一个简单的 python (2.7) 脚本,应该执行一些 svn 命令: def getStatusOutput(cmd): print cmd p = subprocess.Po
我正在尝试读取以字符串形式存储在数据文件中的文件名。那里没问题。如果我将它传递给 genfromtxt,我会收到错误“IOError:Z:\Python\Rb input.txt not found”
简单的问题。 当我尝试打开名为 text.txt 的文件时,它可以正常工作。 但是,如果我将文件重命名为 text.cir.txt,则会出现错误。 我可以做什么来修复它? FILE *fd; char
我是 c# 的业余爱好者,我一直无法找到这个问题的答案。也许我不知道要使用的正确术语。 当一个视频文件被拖到我的 exe 应用程序上时,我希望应用程序知道它是用一个文件启动的,并且能够知道该文件的路径
我知道我必须使用 Substring 来删除,但我不知道该怎么做。我需要像这样删除字符串的结尾 来自 "C:\\Users\\myname\\Pictures\\shoeImage.jpg" 到 "C
运行 eclipse 时我收到此错误。但是当我运行我的项目时,它是在内部浏览器中执行的。但它不会在默认的系统浏览器中执行。对此任何一个答案。先谢谢您的回答 最佳答案 您可以从 eclipse 更改浏览
我想要求用户选择一个要从外部存储打开的文件并接收它的路径。最好我想避免过多的编码并使用一些标准方法(众所周知,系统提供的 Intent 或类似方法)。所说的文件是SpatiaLite db文件(*.s
我有一个文件名数据库,我正在尝试使用 PG 的全文搜索工具在其中进行搜索。我在文件名表上运行搜索查询,问题是排名函数没有按照我希望的那样对结果进行排名。为了便于讨论,我们假设架构如下所示: creat
我是一名优秀的程序员,十分优秀!