c++ - 从一个巨大的列表中删除大量字符串-6ren

c++ - 从一个巨大的列表中删除大量字符串

转载作者：太空狗更新时间：2023-10-29 21:24:58

24

4

我有一个大字符串列表存储在一个巨大的内存块中(通常有 100k+ 甚至 1M+)。这些实际上是散列，因此字符串的字母表仅限于 A-F0-9，并且每个字符串的长度恰好是 32 个字节(因此它存储为“压缩”)。从现在开始，我将把这个列表称为主列表。

我希望能够从主列表中删除项目。这通常是批量完成的，所以我得到一个很大的哈希列表(通常大约 100 到 10k)，我需要在这个列表中找到并删除它们。在此操作结束时，大内存块中不能有任何空 block ，因此我需要考虑到这一点。不能保证所有项目都会出现在主列表中，但不会多次出现。无法进行重定位，主 block 将始终保持相同大小。

简单的方法遍历主列表并检查是否应删除给定的哈希当然可行，但有点慢。小内存块的移动也有点太多，因为每次当一个散列被标记为要删除时，我都会用主列表的最后一个元素重写它，从而满足没有空 block 的条件。这当然会创建数以千计的小 memcpy ，这反过来又会减慢速度，因为我遇到了大量的缓存未命中。

有没有更好的方法？

一些重要的注意事项:

主列表没有排序，我不能浪费时间来排序，这个是整个项目强加的限制并重写它所以列表总是排序不是一个选项(它甚至可能不是可能)
内存不是问题，但越少越好
我会用STL，但不会boost

最佳答案

好吧，如果我绝对必须对此进行优化，这就是我要做的。我假设顺序无关紧要，这似乎是您 (IIUC) 通过将项目与最后一项交换来删除项目的情况。

存储 128 位整数(无论您如何表示它们，要么您的编译器本身支持它们，要么您使用 32/64 位整数的小型数组)而不是 32 字符字符串。请参阅我对该问题的评论。
滚动我自己的 128 位整数哈希集。请注意，如果您愿意稍微思考一下、做出一些假设并认真对待，您可以在此处优化很多。一些注意事项:
- 您只需要存储哈希值本身(用于解决冲突)，以及一两个元数据来识别已删除/未使用的槽位。如果您不确定如何保证正确性，请查看现有哈希表的作用。我认为如果您只在构建哈希集后删除(而不是添加)，那就更简单了。虽然我认为如果您的值不是表示空槽的有效散列值，您甚至可以不使用该元数据，但这种方式删除更容易(只需翻转一点，而不是覆盖 128 位)。
- 您不需要哈希函数，因为您的输入已经是整数。您只需要做每个哈希表无论如何都会做的事情:将哈希取模 2^n 来导出一个并不大的索引。选择 n 使得负载因子(使用的表条目的百分比)是合理的(< 2/3 似乎是标准的)。选择的幂使得模运算成本更低(通过二进制 AND 屏蔽位)，并允许您仅在较低的 32 位或 64 位上执行(忽略其余位)。
- 选择冲突解决策略很困难。我可能会选择 open addressing作为第一次尝试，使用线性探测。它可能效果不佳，但如果您的输入散列有任何好处，这似乎不太可能。还有一个探测方案，它考虑了越来越多的您最初切断的位，由 CPython's dict 使用。 .

现在，这比使用现成的解决方案要多得多的工作和维护负担。我不会建议它，除非这真的像您描述的那样对性能至关重要。如果 C++11 是一个选项，并且您的编译器的 unordered_set 很好，也许您应该直接使用它并为自己省去大部分麻烦(但请注意，这可能会增加内存需求)。您仍然需要专门化 std::hash 和 std::equal_to 或 operator==。或者为 unordered_set 提供您自己的 Hash 和 KeyEqual，但这可能没有任何好处。

关于c++ - 从一个巨大的列表中删除大量字符串，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14814876/

24

4

0

文章推荐： c# - WPF 的免费字体和颜色选择器？

文章推荐： python - Matplotlib:从 x 轴到点画线

文章推荐： c++ - 在 xcode 4.6 中构建但使用命令行失败

文章推荐： c++ - 将 C++ exe 与 C 库 (GNU) 链接时出现问题

android - 无法在共享首选项中存储字符串(巨大)
我通过在共享首选项中使用 GSON 将其转换为 json 来存储我的复杂对象。但是在检索它时，无法获得预期的字符串。代码这里 holderListCustomizationMap 是对象的复杂映射
rust - 如何遍历(巨大)压缩文件的行？
因此，我正在尝试对大于可用RAM的gz压缩文件执行某种面向行的操作，因此排除了将其首先读取为字符串的情况。问题是，如何在rust(缺少gunzip file.gz|./my-rust-program)
javascript - 巨大 float 的国际格式
我试图更好地理解为什么具有潜在大精度的大数字处理不一致，特别是在 JavaScript 及其本地化工具(例如 ECMA-402/Intl)中。我假设这与 float 的使用有关，但我想了解限制在哪里和
mysql - CSV(巨大)到基于网络的数据库
我们有一个 5GB 的 csv 文件，这是我们业务的主列表。有多个类别，每个类别包含数千条记录。我们的目标是将每个类别导出为其自己的 csv 文件。我们如何运行查询并导出数据？运行 OSX。有没
R:巨大(> 20GB)文件的xmlEventParse期间的内存管理
基于上一个问题 ( see here )，我试图通过 xmlEventParse 读取许多大型 xml 文件，同时保存节点变化数据。使用此示例 xml:https://www.nlm.nih.gov/
巨大 CSV 文件的 Java 内存问题
我正在开发一个系统，它加载一个巨大的 CSV 文件(超过 100 万行)并保存到数据库中。每行也有超过一千个字段。 CSV 文件被视为一个批处理，每一行都被视为其子对象。在添加对象的过程中，每个对象都
javascript - Browserify 产生一个*巨大*的输出文件
借助node-google模块我编写了一个简单的 Node 模块来为我的网络应用程序启用“文本网络搜索”功能，并在我的一个 View 中显示结果。由于在来自同一 IP 的少量查询后 Google
python - 巨大 numpy (HDF5) 阵列的统计数据
我有相当大的 4D 阵列 [20x20x40x15000]，我使用 h5py 将其作为 HDF5 文件保存到磁盘.现在的问题是我想计算整个数组的平均值，即使用: numpy.average(HDF5_
巨大 CString 的 C++ 串联
我在遗留代码库中连接巨大的 CString 时遇到问题。 CStrings 可以包含 base64 编码的文件，因此可能很大。在某些时候，这些 CString 会像这样连接起来: result +=
python - 使用 django 从远程提供可下载文件(巨大)
我正在尝试让我的服务器提供来自另一台服务器的巨大文件。但是，为了保护我的凭据免受该远程服务器的攻击，我不能简单地将请求者重定向到文件 url；另一方面，虽然使用 StreamingHttpRespon
mongodb - 为什么我的 mongo local db oplog 巨大
感谢对此的任何见解，我有 2 个问题: 1) 弄清楚为什么我的本地数据库 oplog 庞大且不断增长 2) 安全删除(或重置)我的 local.oplog 以释放 18 GB 的浪费空间场景:我一直
javascript - 在 Node JS 中获取、操作和编写(响应)巨大 JSON 的最佳方式？
我的预期任务:获取大量数据(1 GB 及更多大小)json 字符串，操作(进行一些格式化、解析 json、重组 json 数据)并写入新格式化的 json 字符串作为响应。处理这种情况的更好方法是什么
Angular 2 和 Angular Cli tree shaking 生产构建，vendor.js 巨大
我做了一个小的 Angular 4 应用程序，但我不知道如何应用 tree shaking 和 aot 编译。我运行的命令如下: ng build --prod --aot 但我得到的结果仍然很大，供

首页

博学

6Ren·AI

商城

c++ - 从一个巨大的列表中删除大量字符串