- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
问题有点长,请耐心等待。
我正在编写 Java 代码以将全天网络跟踪中的流量聚合到每个子网的 84 秒分箱中。目前,我最多有 256 个子网,每个子网有 1024 个 bin。我用它来获取流量特征统计信息,例如每个子网的每个窗口中的连接数、输入/输出字节数、外部 ip 地址数。虽然连接、输入/输出字节很简单,但获取唯一数量的外部 IP 地址会导致 OutOfMemory 错误。
为了确定外部 ip 地址的唯一数量,我需要将 IP 地址存储在一些数据结构中,例如哈希表,并且在跟踪结束时我可以得到这个哈希表的大小。这意味着我将拥有 1024*256 个哈希表,每个哈希表存储大量 12-15 字节的 IP 地址字符串(数十到数千)。这很快就会崩溃,系统内存不足(我试图将 Java 堆大小设置为最多 2GB 但无济于事)。谁能建议一种有效存储如此大量对象的方法?
我尝试使用 bitset(将 ip 转换为 int),但是考虑到 ip 地址非常稀疏,它对内存情况没有帮助。作为最后的手段,我可能会使用 colt 库稀疏矩阵,每个 double 存储最多 64 个 ip 地址,但我想征求意见,以防我遗漏一些明显的东西,并且可以节省编写/调试此类包装器的时间。
旁注:为了了解规模,我看到我解析和聚合的每个跟踪都有数亿个流。在大多数情况下,我使用 256 个子网中的 10 到 20 个,但我希望该解决方案能够扩展到所有 256 个子网。
最佳答案
更新:如果您将整个 40 亿个 IPv4 地址存储为一个数组,那么您可以将时间表示为一个单独的短片。
short[] ipv4 = new short[Integer.MAX_VALUE * 2]; // technically not possible blah blah
那将是 8GB,时间分辨率为 65K。只需考虑一下,因为它在内存上设置了上限,因为任何其他方案都必须在该上限之下。如果您使用一个字节,它将是 256 时间分辨率,每个 bin 337.5 秒,和 4 GB。
现在,您只能说您在该桶中至少看到了一个数据包。如果你需要一个再次炸毁内存的计数,但有一个短路,你可以使用 1024 个桶和一个潜在的 6 位分辨率来计数:最大 64 个数据包。
现在有 1 亿个唯一 IP,内存减少了 10 倍,因此理论上您可以从 8GB 增加到 800MB。虽然不分配您认为可以节省内存的整个空间,但您仍然必须为每个 IP 存储 4 个字节:400MB 仅用于 IP + 400MB 用于某种排序结构来保存它们(100M 指针 * 4 字节),2 个字节用于时间:最少 1GB。通过分配完整空间,您可以跳过再次存储 IP,因为您的哈希值就是您的 IP。如果您减少数组,您将不再拥有 IP,因为它已被散列掉了。现在你无法存储 IP 并仍然回答给定 IP 的问题,但你不能反省它。
如果您存储了一系列子网掩码,然后汇总其下的所有 IP,并将您的统计信息保存在该子网掩码上,会怎样?例如,您有 256 个子网,每个子网都有自己的子网掩码。您的程序将采用掩码的下限。也就是说,如果您掩码为 209.134.0.0/16 并使用下限 8。那么它将为该子网创建 256 个 bin,它们与 209.134.0.0-209.134.255.255 分开。您将为您拥有的所有 256 个子网重复相同的过程。 8 位的下限意味着每个子网的较低 256 个地址将被汇总。您可以将任何 IP 地址散列到 bin 中并将统计信息保存在内存中。但是,您不能对单个 IP 地址说任何话。但是,如果您需要更高的分辨率,您可以将较低的子网掩码设为 4,现在有更多的分箱。
只有在其中有 1 个 IP 时,您才创建一个 bin,因此,如果您没有 IP 显示在那里,您可以节省一些空间,因此它在足够低的下降分辨率和足够高以跳过创建 bin 之间保持平衡你不需要的东西。
然后您可以写出每个 bin 的日志并跟踪磁盘上每个 bin 中发生的事情。如果您想回答有关单个 IP 的问题,您可以找出它属于哪个 bin,然后打开文件并在其中搜索以找到答案。该方案意味着您可以根据数据的大小以及通过提高和降低界限来扩大或缩小规模。您可以通过更改每个 bin 写出的文件结构来提高性能。
我知道很抱歉的长度! :-)
关于java - 在内存中存储大量 IP 地址,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9203798/
目前,我有以下设置: A记录: mydomain.com - aaa.aaa.aaa.aaa subdomain.mydomain.com - aaa.aaa.aaa.aaa NS记录: mydoma
有人可以帮助我以最佳方式在流畅的 nHibernate 中映射以下情况吗? Address 类用于 Client 和 Company。如何在 SQL 中最有效地存储它?映射应该是什么样的?我已经考虑过
我正在尝试编写一个 Windows 应用程序,它将在来自 PC 的以太网链接上生成流量。 我想使用 webBrowser 控件不断拉取网页以产生流量。 在这种情况下,我希望每个 webBrowser
我正在编写一个 SIP 堆栈,我需要在消息中插入一个 IP 地址。该地址必须是用于发送消息的地址。我知道目标 IP 并且需要确定将用于发送消息的 NIC(其地址).... 最佳答案 为了扩展 Remy
如何使用 IP 地址获取 MAC 地址,但以下代码不起作用 packet = ARP(op=ARP.who_has,psrc="some ip",pdst = ip) response = srp(p
目前我想知道如何实现对本地无线网络(路由器)的获取请求以获取当前连接到当前连接的 LAN 的所有设备.... 所以我做了一些研究,显然“nmap”是一个终端/命令提示符命令,它将连接的设备返回到本地无
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicates: how to find MAC address in MAC OS X programmatically
我们正在为 ipad 开发一个 iOS 应用程序,它使用 bonjour 与其他设备连接,使用 couchbaseListener 与对等数据库进行复制。我们观察到,每当 [nsnetservice
我创建了 3 个实例,其中 3 个弹性 IP 地址指向这些实例。 我做了 dsc 的 yum 安装:dsc12.noarch 1.2.13-1 @datastax 并且/etc/cassandra/d
我正在尝试获取规模集中所有虚拟机的私有(private) IP 地址列表(没有一个虚拟机故意拥有任何公共(public) IP 地址)。我找到了如何从 az cli 获取此内容,如下所示: az vm
我正在尝试获取规模集中所有虚拟机的私有(private) IP 地址列表(没有一个虚拟机故意拥有任何公共(public) IP 地址)。我找到了如何从 az cli 获取此内容,如下所示: az vm
我正在尝试与该端口上的任何 IP 建立连接。最初,我将其设置为 10.0.0.7,这是我网络上另一台计算机的 IP,因此我可以测试客户端/服务器。但是,我希望它可以与任何计算机一起使用而不必将 IP
作为序言,我开发了自己的 CRM(类似于 SalesForce 或 SAP),其“规模”要小得多,因为它面向服务,而不是销售。我在 Ubuntu 16.04 服务器上使用 MySql 或 MariaD
在我的项目中,我想做如下事情: static void test0(void) { printf("%s [%d]\n", __func__, __LINE__); } static void
我的机器上有两个网卡,配置了两个独立的 IP 地址。两个 IP 地址都属于同一个网络。我是否正确地说,当我创建一个特定于这些 IP 地址之一的套接字时? 更新: 这是我的情况: 我有一个位于 192.
当然,我意识到没有一种“正确的方法”来设计 SQL 数据库,但我想就我的特定场景中的优劣获得一些意见。 目前,我正在设计一个订单输入模块(带有 SQL Server 2008 的 Windows .N
我们将保存大量地址数据(在我公司的眼中,每个客户大约有150.000至500.000行)。 地址数据包含约5列: 名称1 名称2 街(+否) 邮政编码 市 也许以后再添加一些东西(例如电话,邮件等)
好的,我们在生产中实现了 Recaptcha。我们收到错误是因为它无法到达使用该服务所需的 IP 地址。我们为 IP 地址打开一个端口以到达 Google。没问题。我们这样做并显式配置该 IP 地址以
此页面使用 Drupals 联系表发送电子邮件:http://www.westlake.school.nz/contact 问题是,学校员工使用 outlook。当他们收到来自 parent 等的电子
是否可以将用户输入的邮政编码转换为文本框并将其转换为CLLocation?我正在尝试比较其当前位置与地址或邮政编码之间的距离,如果可以从NSString中创建CLLocation,这将很容易。 最佳答
我是一名优秀的程序员,十分优秀!