- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在一次采访中被问到以下问题,我无法解决任何对此问题的指示都会非常有帮助。
我有 100 个文件,每个文件大小为 10 MB,每个文件的内容都是一些映射到整数值的字符串。
string_key=整数值
a=5
ba=7
cab=10 etc..
可用的物理 RAM 空间为 25 MB。如何设计数据结构:
For any duplicate string_key, the integer values can be added
Display the string_key=integer value sorted in a alphabetical format
约束:
All the entries of a file could be unique. All of the 10*1000MB of data could be unique string_key mapping to an integer value.
解决方案 1:
我正在考虑一个接一个地加载每个文件并将信息存储在 HashMap 中,但是这个 HashMap 将非常庞大并且如果所有文件都包含唯一数据则 RAM 中没有足够的可用内存.
还有其他想法吗?
使用 noSqldb 不是一种选择。
最佳答案
这是我的尝试。基本上这个想法是使用一系列小的二叉树来保存排序的数据,动态创建并将它们保存到磁盘以节省内存,并使用链表对树本身进行排序。
手波版本:
创建一个二叉树,根据其条目的键按字母顺序排序。每个条目都有一个键和一个值。每棵树都有其第一个和最后一个键的名称作为属性。我们分别加载每个文件,并逐行插入一个条目到树中,树会自动对其进行排序。当树的内容大小达到 10 mb 时,我们将树分成两棵 5 mb 的树。我们将这两棵树保存到磁盘中。为了跟踪我们的树,我们保留了一组树及其名称/位置以及它们的第一个和最后一个属性的名称。从现在开始,对于 fileN 中的每一行,我们使用我们的列表来定位适当的树以将其插入,将该树加载到内存中,并执行必要的操作。我们继续这个过程,直到我们到达终点。
使用这种方法,加载到内存中的最大数据量不会超过 25 MB。总是有一个文件 N 被加载(10mb),一个树被加载(最多 10mb),以及一个树数组/列表(希望不会超过 5mb)。
稍微严谨一点的算法:
初始化排序的二叉树 B
其条目是 (key, value)
元组,根据条目的属性排序 key
并具有属性 name, size, first_key, last_key
其中 name
是一些任意的唯一字符串和 size
是以字节为单位的大小。
初始化一个排序链表L
其条目是 (tree_name, first_key)
形式的元组根据条目的属性排序 first_key
.这是我们的树木 list 。添加元组 (B.name, B.first_key)
至 L
.
假设文件名为 file1, file2, ..., file100
我们继续使用以下伪代码编写的算法,该伪代码恰好与 python 非常相似。 (我希望我在这里使用的未声明函数是不言自明的)
for i in [1..100]:
f = open("file" + i) # 10 mb into memory
for line in file:
(key, value) = separate_line(line)
if key < B.first_key or key > B.last_key:
B = find_correct_tree(L, key)
if key.size + value.size + B.size > 10MB:
(A, B) = B.split() # supp A is assigned a random name and B keeps its name
L.add(A.name, A.first_key)
if key < B.first_key:
save_to_disk(B)
B = A # 5 mb out of memory
else:
save_to_disk(A)
B.add(key)
save_to_disk(B)
然后我们只是遍历列表并打印出每个关联的树:
for (tree_name, _) in L:
load_from_disk(tree_name).print_in_order()
这有点不完整,例如要完成这项工作,您必须不断更新列表 L
每次first_key
变化;而且我还没有严格证明这在数学上使用了 25 mb。但我的直觉告诉我,这可能会奏效。可能还有比保持排序的链表(也许是哈希表?)更有效的方法来对树进行排序。
关于data-structures - 设计一个数据结构来保存大量数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18152769/
关闭。这个问题需要更多focused .它目前不接受答案。 想改善这个问题吗?更新问题,使其仅关注一个问题 editing this post . 4年前关闭。 Improve this questi
.NET 框架:4.5.1 我在 Blend for visual studio 2015 中遇到一个奇怪的错误,我找不到它的来源。 如果我在 VS 中打开我的 WPF 解决方案,它会加载并运行良好。
我经常遇到这样的问题,与 Hierarchical RESTful URL design 非常相似 假设该服务仅提供用户上传文档。 POST, GET /accounts PUT, DELETE /a
在 Rails 应用程序中,我使用 devise 来管理我的用户,而我用来销毁 session 的链接不再有效。它正在工作,现在我添加了事件管理员,但没有。 我的链接是 :delete, :clas
我已经坚持了超过 24 小时,试图按照此处发布的其他解决方案进行操作,但我无法使其正常工作。我是 Rails 新手,需要帮助! 我想让我的/users/edit 页面正常工作,以便我可以简单地更改用户
Devise 在以下情况下不会使用户超时: 用户登录,关闭选项卡,然后在超时 + X 分钟内重新访问该 URL。用户仍处于登录状态。 如果选项卡已打开并且稍后刷新/单击,则超时可以正常工作。这意味着
我想使用这样的 slider 我希望该 slider 根据提供给它的值进行相应调整。到目前为止,我只能应用具有渐变效果的背景,但无法获得这种效果。请通过提供样式代码来帮助我。
您应该为每种方法创建一个请求/响应对象,还是应该为每个服务创建一个? 如果我在所有方法中使用它,我的服务请求对象中将只有 5 个不同的东西,因为我对几乎所有方法使用相同的输入。 响应对象将只有一个字典
我正在尝试在 REST 中对实体的附件进行建模。假设一个缺陷实体可以附加多个附件。每个附件都有描述和一些其他属性(上次修改时间、文件大小...)。附件本身是任何格式的文件(jpeg、doc ...)
我有以下表格: Blogs { BlogName } BlogPosts { BlogName, PostTitle } 博客文章同时建模一个实体和一个关系,根据 6nf(根据第三个宣言)这是无效的。
如果 A 类与 B、C 和 D 类中的每一个都有唯一的交互,那么交互的代码应该在 A 中还是在 B、C 和 D 中? 我正在编写一个小游戏,其中许多对象可以与其他对象进行独特的交互。例如,EMP点击
关于如何记住我与 Omniauth 一起工作似乎有些困惑。 根据这个wiki ,您需要在 OmniauthCallbacksController 中包含以下内容: remember_me(user)
设计问题: 使用 非线程安全 组件(集合,API,...)在/带有 多线程成分 ... 例子 : 组件 1 :多线程套接字服务器谁向消息处理程序发送消息... 组件 2 :非线程安全 消息处理程序 谁
我们目前正在设计一个 RESTful 应用程序。我们决定使用 XML 作为我们的基本表示。 我有以下关于在 XML 中设计/建模应用程序数据的问题。 在 XML 中进行数据建模的方法有哪些?从头开始然
我正在设计一个新的 XSD 来从业务合作伙伴那里获取积分信息。对于每笔交易,合作伙伴必须提供至少一种积分类型的积分值。我有以下几点:
设计支持多个版本的 API 的最佳方法是什么。我如何确保即使我的数据架构发生更改(微小更改),我的 api 的使用者也不会受到影响?任何引用架构、指南都非常有用。 最佳答案 Mark Nottingh
关闭。这个问题是opinion-based 。目前不接受答案。 想要改进这个问题吗?更新问题,以便 editing this post 可以用事实和引文来回答它。 . 已关闭 4 年前。 Improv
我想用 php 创建一个网站,其工作方式与 https://www.bitcoins.lc/ 相同。确实,就每个页面上具有相同布局但内容会随着您更改链接/页面而改变而言,我如何在 php 中使用lay
我有一个关于编写 Swing UI 的问题。如果我想制作一个带有某些选项的软件,例如在第一个框架上,我有三个按钮(新建、选项、退出)。 现在,如果用户单击新按钮,我想将框架中的整个内容更改为其他内容。
我正在尝试找出并学习将应用程序拥有的一堆Docker容器移至Kubernetes的模式和最佳实践。诸如Pod设计,服务,部署之类的东西。例如,我可以创建一个其中包含单个Web和应用程序容器的Pod,但
我是一名优秀的程序员,十分优秀!