c - 使用 Serialize Binary Search Tree 对海量数据进行排序-6ren

c - 使用 Serialize Binary Search Tree 对海量数据进行排序

转载作者：太空宇宙更新时间：2023-11-03 23:23:31

25

4

我有这样的 50 GB 结构化(作为键/值)数据，这些数据存储在一个文本文件中(input.txt/键和值是 63 位无符号整数)；

3633223656935182015 2473242774832902432
8472954724347873710 8197031537762113360
2436941118228099529 7438724021973510085
3370171830426105971 6928935600176631582
3370171830426105971 5928936601176631564

我需要将此数据作为键以该键的最小值递增的顺序进行排序。结果必须在 30 分钟内显示在另一个文本文件 (data.out) 中。例如上面的示例结果必须是这样的；

2436941118228099529 7438724021973510085
3370171830426105971 5928936601176631564
3633223656935182015 2473242774832902432
8472954724347873710 8197031537762113360

我决定了；

我将使用 input.txt 中的键及其最小值创建一个 BST 树，但这棵树将超过 50GB。我的意思是，此时我有时间和内存限制。
所以我将使用另一个文本文件 (tree.txt)，并将 BST 树序列化到该文件中。
之后，我将使用中序遍历遍历树并将排序后的数据写入data.out文件。

我的问题主要出在序列化和反序列化部分。我怎样才能序列化这种类型的数据？我想对序列化数据使用 INSERT 操作。因为我的数据比内存大。我无法在内存中执行此操作。其实我想用文本文件作为记忆。

顺便说一句，我对这类东西很陌生。如果与我的算法步骤有冲突，请警告我。任何想法、技术和代码示例都会有所帮助。

OS: Linux
Language: C
RAM: 6 GB

注意:我不允许使用排序和合并等内置函数。

最佳答案

考虑到，您的文件似乎具有相同的行大小，大约 40 个字符，总共给我大约 1250000000 行，我将通过命令将输入文件分成更小的文件:

split -l 2500000 biginput.txt

然后我会对它们进行排序

for f in x*; do sort -n $f > s$f; done

最后我将它们合并

sort -m sx* > bigoutput.txt

关于c - 使用 Serialize Binary Search Tree 对海量数据进行排序，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33078210/

25

4

0

文章推荐： c# - User32 SetWindowLong 接受 int 而不是 long

文章推荐： node.js - 何时迁移到下一个 Node.js 版本

文章推荐： c - wait() 不会等待每个 child

javascript - 构建搜索应用程序时什么最有效 : search:search or cts:search?
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 4 年前。 Improve
search - 自动包装 I-search？
在 Vim 中，我可以:set wrapscan，这样当我进行增量搜索时，无论第一个匹配项位于光标上方还是下方，光标都会跳转到第一个匹配项。在 Emacs 中，如果我通过 C-s 开始搜索，如果第一
search - Elastic Search 和 Google Search Appliance 页面排名之间的区别
Elasticsearch 中的页面排名是如何工作的。一旦我们创建了一个索引，就会有一个底层智能层创建一个元数据存储库并提供结果以根据相关性进行查询。我已经创建了几个索引，我想知道在提供查询后结果是如
search - Elastic Search 在多次运行相同查询时返回不一致的结果
我们在单个节点上使用 Elasticsearch 对数据进行了索引。我们在后台运行了一个线程，用于使用最近的更改更新索引。现在我们使用 Elasticsearch API 来运行搜索查询。 {
search - twitter search api没有OR结果
这突然停止工作，正在工作，但现在却没有: 如果我使用Twitter UI并转到: https://twitter.com/#!/search/%22social%20snap%22%20OR%20%
java - Hibernate-search:通过在 hibernate-search 中以编程方式注册字段，基类字段未在 elastic-search 中注册
我在基类中声明了某些字段，并且我想仅为某些子类(实体)注册这些字段。因此，我不想通过 @Field 注释基类中的这些字段，尽管只需以编程方式注册某些实体就足够了。但是在基本实体中声明的字段未注册/
full-text-search - 优势数据库 : Full Text Search not returning results that start with the search string
我的全文搜索索引有问题。我有一个字符字段大小为 30 的表。我在这个字段上创建了一个全文搜索索引，以便在这个不区分大小写的字段上进行快速搜索操作。现在，当我执行以下查询时:SELECT fieldna
search - SandcaSTLe 帮助构建器: Search Functionality
我对SandCaSTLe的输出感到非常满意，但我也想在HTML输出中包含一些搜索功能，这可能吗？最佳答案 SandCaSTLe帮助文件生成器的网站输出包含 index.aspx 和 index.ht
search - Apache Lucene与Google Search Appliance
有没有人遇到过Apache Lucene的功能？我听说它甚至可以与Google Search Appliance(GSA)相提并论。我正在寻找两者之间的明确比较，如果可能的话？在线上进行的比较非常模
search - “Find”和 “Search”之间的语义差异？
在构建应用程序时，“查找”与“搜索”之间有什么有意义的区别吗？您是否将它们视为同义词？我在询问应用程序UI和API设计的标签方面。最佳答案查找是搜索的完成。如果您可能无法成功找到某些东西，则将
search - 谷歌图片搜索: search similar images
我想编写一个移动应用程序，它可以拍照并在谷歌图像中搜索类似的图片，然后显示结果。但是，使用谷歌图像搜索我只能搜索文本字符串，而使用搜索 API 似乎无法搜索相似图片；此功能似乎只能通过网络界面使用。
search - "Search More..."在我的 Many2one 字段中
当我从 Many2one 列表框中选择一个项目时，我想要进行高级搜索。例如，此功能是针对“res.groups”对象实现的。我在/addons 中找不到此功能。更准确地说，我定义了我的对象 clas
search - Amazon Cloud Search - 按时间和日期获取地点
我正在使用 Amazon CloudSearch 存储大量地点。每个地方在一周中的每一天都有开放时间和关闭时间。我需要按当前时间检索地点。您如何建议对索引进行建模？我想通过创建 7 个文本索引来解决
search - 执行 "related searches"功能的方法
我见过一些网站，当您执行搜索时会列出相关搜索，即它们会建议您可能感兴趣的其他搜索查询。我想知道在中型网站中对此进行建模的最佳方法(没有足够的流量来依赖访问者统计数据来推断关系)。我最初的想法是存储每
search - Sitecore Search Api - 如何获取格式化的网址
如何从 Sitecore Lucene 搜索中获取格式化的 url？我创建了一个自定义索引，并在根目录下将其更新为/sitecore/content/websitename/home。检索到搜索结果
search - Vim 状态行 : Word search
我一直在努力寻找这个并且无法找到我想要的东西。在我的状态行上，我想要计算当前文件中出现的匹配数。下面的 vim 命令返回我想要的。我需要返回的号码显示在我的状态行中。 :%s/^I^I//n vim
search - "The specified CFC search could not be found"
我们有自己的服务器与应用程序一起工作。我们开始使用不同的提供商进行托管，现在我们遇到了上述错误。关于同页面，这有效: 但是这个不我们无法弄清楚为什么会这样。您
700. Search in a Binary Search Tree 二叉搜索树中的搜索
题目地址：https://leetcode.com/problems/search-in-a-binary-search-tree/description/ 题目描述 Given the root
search - 传单控件搜索 : open Popup for search result
我正在使用很棒的插件 Leaflet.Control.Search为了在我的 map 上搜索标记(来自 geoJson 标记组)——效果很好。我现在只有一个简单的问题:如何打开搜索结果标记的弹出窗口
search - TYPO3 后端 : search custom records
我开发了一个允许创建新记录的扩展。在列表模块中，在记录列表下，有搜索表单。例如，它适用于 fe 用户，但不适用于我的自定义记录。是否必须在我的 tca 中添加任何特殊配置才能使此表单与我的自定义

首页

博学

6Ren·AI

商城

c - 使用 Serialize Binary Search Tree 对海量数据进行排序