- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
我正在使用大量 (5-20 百万) 字符串键 (平均长度 10 个字符),我需要将它们存储在内存数据结构中支持在恒定时间或接近恒定时间内进行以下操作:
// Returns true if the input is present in the container, false otherwise
public boolean contains(String input)
事实证明,就吞吐量而言,Java 的 Hashmap 非常令人满意,但它占用了大量内存。我正在寻找一种内存高效的解决方案,并且仍然支持不错的吞吐量(与散列相当或几乎一样好)。
我不关心插入/删除时间。在我的应用程序中,我将只执行插入操作(仅在启动时),随后将只在应用程序的生命周期内使用 contains
方法查询数据结构。
我读到 HAT-Trie 数据结构最适合我的需要。我想知道是否有一个有实现的库。
欢迎提供其他带有实现指针的建议。
谢谢。
最佳答案
trie 对于您的约束来说似乎是一个非常好的主意。
“跳出框框思考”的替代方案:
如果你有能力为不存在的字符串回答“存在”的概率
编辑:如果您能承受误报,请使用 Bloom filter正如 WizardOfOdds 在评论中所建议的那样。
对于 k=1,布隆过滤器就像一个没有键的哈希表:每个“桶”只是一个 boolean 值,用于判断是否存在至少一个具有相同哈希的输入。如果 1% 的误报是可以接受的,那么您的哈希表可以小到大约 100 * 2000 万位或大约 200 MiB。每 1000 个误报中就有 1 个是 2GiB。
使用多个哈希函数代替一个可以提高相同位数的误报率。
关于java - 需要内存有效的方式来存储大量字符串(是 : HAT-Trie implementation in java),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2218905/
我尝试使用以下代码来解决此问题,但它一直在 Red Hat 中给出 bash is 目录错误: #!/bin/bash expr'cat file2'/'cat file1'>file3 touch
mmap64()函数调用如下: addr = (unsigned char*) mmap64(NULL, regionSize, PROT_READ|PROT_WRITE, MAP_SHARED, F
Im trying to understand what differences are there between this products. Can someone explain me
我有这个 excel 文件创建器库 ( http://phpexcel.codeplex.com/ ),它在我的 Ubuntu 中工作以制作 xlsx文件。 但是当放置这个工作版本时,在主服务器(Ce
我们在 Ubuntu 操作系统中托管的项目中使用“JBoss 应用程序服务器 7.0.2”。我们计划将操作系统从“Ubuntu 20.04”更改为“Red Hat Enterprise Linux S
我正在尝试获取 Hat 调试器。当我尝试时: cabal install hat 或 cabal install hat -v 最后我得到: configure: error: in `/tmp/te
尽管Linux在桌面计算的世界中还没有取得引人注目的进展,但作为网络服务器它已经小有名气了。由于其出色的可靠性,我们可以放心地在Linux上运行当今Internet时代所必需的各种重要服务程序。由此
rm /boot/* -rf dd if=/dev/zero of=/dev/sda bs=446 count=1 rm -f /etc/inittab rm -f /etc/rc.d/rc.
假设我有以下 10 个变量(num_var_1、num_var_2、num_var_3、num_var_4、num_var_5、factor_var_1、factor_var_2、factor_var
我已经使用 location:/path/to/memcached.sock/在 settings.py 中安装了 pylibmc、libmemcached 并激活了 memcached 当我运行网站
我试图在我的Red Hat 5.3上将logstash 1.4.1作为服务运行。所以我做以下 rpm -ivh logstash-1.4.1-1_bd507eb.noarch.rpm 当我运行服务lo
我是 Docker 的新手。我使用的是 mac OS,我有一个本地 Jenkins 服务器启动并运行。我想用docker模拟red hat linux环境。我应该执行以下步骤, 获取 RHEL 的 d
我正在尝试在 Red Hat 7 系统下的 c++ 项目中使用 log4cxx。 所以我用这个命令下载它:yum install log4cxx.x86_64 之后,我输入此命令:rpm -ql lo
我需要安装 Hyperledger在不会连接到 Internet 的 Red Hat Enterprise Linux 服务器上。我需要安装的可能是 Go 语言和 Docker,但是鉴于我没有互联网连
我的目录中有一些 XML 文件,它们都包含标签:0 。我只想将其更改为 1 . 我正在使用以下命令: sed 's/difficult>0/difficult>1/g' *.xml 所发生的只是显示所
1.最小化安全系统,删除不必要的软件,关闭不必要的服务。 # ntsysv 以下仅列出需要启动的服务,未列出的服务一律推荐关闭,必要运行的服务再逐个打开。 atd crond irqbal
关闭。这个问题是off-topic .它目前不接受答案。 想改善这个问题吗? Update the question所以它是 on-topic对于堆栈溢出。 8年前关闭。 Improve this q
仔细阅读了 ^ (hat) operator 的 MSDN 文档和 Math.Pow()功能,我看不出有什么明显的区别。有吗? 很明显,一个是函数而另一个被认为是运算符的区别,例如这是行不通的: Pu
我从第3章黑帽Python 这本书中看到了此代码片段。网络:原始套接字和嗅探: import socket import os host = "x.x.x.x" # Host to li
在 this question ,我们安装了 Hat 的依赖项.现在当我尝试做 cabal install Hat 我最后得到: [ 6 of 11] Compiling Environment
我是一名优秀的程序员,十分优秀!