- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
背景
我正在处理的问题如下:
在我为研究设计的实验环境中,我生成了大量的大型(长度为 4M)数组,这些数组有些稀疏,因此可以存储为 scipy.sparse.lil_matrix
实例,或简单地作为 scipy.array
实例(空间增益/损失不是这里的问题)。
这些数组中的每一个都必须与一个字符串(即一个词)配对才能使数据有意义,因为它们是表示该字符串含义的语义向量。 我需要保留这个配对。
列表中每个单词的向量都是一个一个构建的,并在移动到下一个单词之前存储到磁盘。
它们必须以一种可以随后使用类似字典的语法检索的方式存储到磁盘。例如,如果所有单词都存储在类似 DB 的文件中,我需要能够打开该文件并执行类似 vector = wordDB[word]
的操作。
当前方法
我现在在做什么:
使用shelve
打开一个名为wordDB
每次构建单词的向量(当前使用 scipy.sparse
中的 lil_matrix
),将向量存储在 shelf 中:wordDB [单词] = 向量
当我需要在评估期间使用向量时,我会做相反的事情:打开架子,然后通过对每个单词执行 vector = wordDB[word]
来调用向量,因为它们是需要的,因此并非所有向量都需要保存在 RAM 中(这是不可能的)。
上述“解决方案”在解决指定问题方面符合我的需要。问题很简单,当我希望使用这种方法为大量单词构建和存储向量时,我只是用完了磁盘空间。
据我所知,这是因为 shelve
对正在存储的数据进行 pickle,这不是存储大型数组的有效方式,因此使用 shelve 使这个存储问题变得棘手
表示我需要处理的字数。
问题
因此问题是:有没有一种方法可以序列化我的数组集,它将:
以类似于 scipy.save
生成的 .npy
文件的压缩二进制格式保存数组本身?
满足我的要求,即数据可以作为字典从磁盘读取,保持单词和数组之间的关联?
最佳答案
正如 JoshAdel 已经建议的那样,我会选择 HDF5,最简单的方法是使用 h5py:
您可以使用像 sintax 这样的字典将多个属性附加到数组:
dset.attrs["Name"] = "My Dataset"
其中 dset 是您的数据集,它可以像 numpy 数组一样精确切片,但在后台它不会将所有数组加载到内存中。
关于python - 类似字典的高效存储 scipy/numpy 数组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5330010/
学习SQL。有一个简单的带有字段标题的桌面游戏。我想根据标题进行搜索。如果我有一款名为 Age of Empires III: Dynasties 的游戏,并且我使用 LIKE 和参数 Age of
我正在尝试为以下数据结构创建镜头。我正在使用lens-family . data Tree = Tree { _text :: String, _subtrees ::
我发现很难理解这一点。比如说,在 Python 中,如果我想要一个根据用户输入在循环中修改的列表,我会有这样的内容: def do_something(): x = [] while(
我有一个像这样的 mysql 查询 SELECT group_name FROM t_groups WHERE group_name LIKE '%PCB%'; 结果是 group_name ----
我的数据库表中有超过一百万条记录。当我使用like时非常慢,当我使用match against时他们丢失了一些记录。 我创建帮助表: 标签列表 tag_id tag_name tag_rel_me
我在我的一个 Java 项目中使用 JXBrowser 来简单显示 googlemaps 网页,以便我可以在那里跟踪路线,但最近我想改进该项目,但我的问题是 JXBrowser 的许可证过期(只有一个
小问题:如何将 mysql_escape_string 变量包含在 like 子句中? "SELECT * FROM table WHERE name LIKE '%". %s . "%'" 或
我尝试使用几个jquery消息插件,例如alertify . 但我注意到的主要事情是系统消息框会停止后台功能,直到用户响应。其他插件没有此功能。 有没有办法将此功能添加到 jquery 插件中?可以扩
我是 Ruby 新手。我过去使用过 shell。我正在将 shell 程序转换为 ruby。我有以下命令 cmd="cat -n " + infile + " | grep '127.0.0.1
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,
当我研究 Rust 时,我试图编写一个 Rust 函数来查看任何可迭代的字符串。 我最初的尝试是 fn example_1(iter: impl Iterator); fn example_2(ite
我必须在我的项目中使用代码拆分。但无论如何,第一次初始下载有一些代码。 现在我想向最终用户展示代码下载(.cache.html - 或其他代码拆分)的进度,例如 gmail 启动进度。 请你帮帮我。
我今天找到了一个错误,它最终是由我代码中的以下片段引起的(我试图在列表中仅过滤“PRIMARY KEY”约束): (filter #(= (% :constraint_type "PRIMARY KE
我正在尝试在关键字段上实现检查约束。关键字段由 3 个字符的前缀组成,然后附加数字字符(可以手动提供,但默认是从序列中获取整数值,然后将其转换为 nvarchar)。关键字段定义为 nvarhcar(
我正在尝试使用以下方式创建 List 实例: List listOne = new ArrayList(); List listTwo = new ArrayList(){}; List listTh
我过去曾为 iOS 开发过,最近转向了 mac 开发。我开始了一个“感受”事物的项目,但遇到了一个问题。我试图创建一个 NSTableView 来显示多个项目,包括一个标签、一个 2 UIImageV
我正在尝试编写一个查询,该查询将返回哪些主机缺少某个软件: Host Software A Title1 A
AFAIK,在三种情况下别名是可以的 仅限定符或符号不同的类型可以互为别名。 struct 或 union 类型可以为包含在其中的类型设置别名。 将 T* 转换为 char* 是可以的。 (不允许相反
\s 似乎不适用于 sed 's/[\s]\+//' tempfile 当它为工作时 sed 's/[ ]\+//' tempfile 我正在尝试删除由于命令而出现在每行开头的空格: nl -s ')
我正在使用 ocamlgraph 在 ocaml 中编写程序,并想知道是否要将其移植到 F# 我有哪些选择?谢谢。 最佳答案 QuickGraph .Net 最完整的图形库之一 关于F# 图形库(类似
我是一名优秀的程序员,十分优秀!