- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我有一个大字符串列表存储在一个巨大的内存块中(通常有 100k+ 甚至 1M+)。这些实际上是散列,因此字符串的字母表仅限于 A-F0-9,并且每个字符串的长度恰好是 32 个字节(因此它存储为“压缩”)。从现在开始,我将把这个列表称为主列表。
我希望能够从主列表中删除项目。这通常是批量完成的,所以我得到一个很大的哈希列表(通常大约 100 到 10k),我需要在这个列表中找到并删除它们。在此操作结束时,大内存块中不能有任何空 block ,因此我需要考虑到这一点。不能保证所有项目都会出现在主列表中,但不会多次出现。无法进行重定位,主 block 将始终保持相同大小。
简单的方法遍历主列表并检查是否应删除给定的哈希当然可行,但有点慢。小内存块的移动也有点太多,因为每次当一个散列被标记为要删除时,我都会用主列表的最后一个元素重写它,从而满足没有空 block 的条件。这当然会创建数以千计的小 memcpy ,这反过来又会减慢速度,因为我遇到了大量的缓存未命中。
有没有更好的方法?
一些重要的注意事项:
最佳答案
好吧,如果我绝对必须对此进行优化,这就是我要做的。我假设顺序无关紧要,这似乎是您 (IIUC) 通过将项目与最后一项交换来删除项目的情况。
dict
使用。 .现在,这比使用现成的解决方案要多得多的工作和维护负担。我不会建议它,除非这真的像您描述的那样对性能至关重要。如果 C++11 是一个选项,并且您的编译器的 unordered_set
很好,也许您应该直接使用它并为自己省去大部分麻烦(但请注意,这可能会增加内存需求)。您仍然需要专门化 std::hash
和 std::equal_to
或 operator==
。或者为 unordered_set
提供您自己的 Hash
和 KeyEqual
,但这可能没有任何好处。
关于c++ - 从一个巨大的列表中删除大量字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14814876/
我通过在共享首选项中使用 GSON 将其转换为 json 来存储我的复杂对象。但是在检索它时,无法获得预期的字符串。 代码 这里 holderListCustomizationMap 是对象的复杂映射
因此,我正在尝试对大于可用RAM的gz压缩文件执行某种面向行的操作,因此排除了将其首先读取为字符串的情况。问题是,如何在rust(缺少gunzip file.gz|./my-rust-program)
我试图更好地理解为什么具有潜在大精度的大数字处理不一致,特别是在 JavaScript 及其本地化工具(例如 ECMA-402/Intl)中。我假设这与 float 的使用有关,但我想了解限制在哪里和
我们有一个 5GB 的 csv 文件,这是我们业务的主列表。 有多个类别,每个类别包含数千条记录。我们的目标是将每个类别导出为其自己的 csv 文件。 我们如何运行查询并导出数据? 运行 OSX。有没
基于上一个问题 ( see here ),我试图通过 xmlEventParse 读取许多大型 xml 文件,同时保存节点变化数据。使用此示例 xml:https://www.nlm.nih.gov/
我正在开发一个系统,它加载一个巨大的 CSV 文件(超过 100 万行)并保存到数据库中。每行也有超过一千个字段。 CSV 文件被视为一个批处理,每一行都被视为其子对象。在添加对象的过程中,每个对象都
借助node-google模块 我编写了一个简单的 Node 模块来为我的网络应用程序启用“文本网络搜索”功能,并在我的一个 View 中显示结果。 由于在来自同一 IP 的少量查询后 Google
我有相当大的 4D 阵列 [20x20x40x15000],我使用 h5py 将其作为 HDF5 文件保存到磁盘.现在的问题是我想计算整个数组的平均值,即使用: numpy.average(HDF5_
我在遗留代码库中连接巨大的 CString 时遇到问题。 CStrings 可以包含 base64 编码的文件,因此可能很大。在某些时候,这些 CString 会像这样连接起来: result +=
我正在尝试让我的服务器提供来自另一台服务器的巨大文件。但是,为了保护我的凭据免受该远程服务器的攻击,我不能简单地将请求者重定向到文件 url;另一方面,虽然使用 StreamingHttpRespon
感谢对此的任何见解,我有 2 个问题: 1) 弄清楚为什么我的本地数据库 oplog 庞大且不断增长 2) 安全删除(或重置)我的 local.oplog 以释放 18 GB 的浪费空间 场景:我一直
我的预期任务:获取大量数据(1 GB 及更多大小)json 字符串,操作(进行一些格式化、解析 json、重组 json 数据)并写入新格式化的 json 字符串作为响应。处理这种情况的更好方法是什么
我做了一个小的 Angular 4 应用程序,但我不知道如何应用 tree shaking 和 aot 编译。我运行的命令如下: ng build --prod --aot 但我得到的结果仍然很大,供
我是一名优秀的程序员,十分优秀!