- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我们有一个点击跟踪系统,我可以跟踪每个请求的 IP 地址。
我们每天都有数百万次点击。
对于每个请求,在 MySQL 中将 IP 地址存储为 1 行
我们还需要每日统计前 10 个 IP 地址命中率。
这是我在使用 MySQL 时遇到的问题,但我们的问题是数据库越来越重,占用的空间也越来越大。
我在寻找可以有效存储此 IP 地址的良好“数据结构”吗?
目前,如果我选择好的数据结构,那么我的问题将得到解决,我将每一次点击都存储为一行
我不想运行复杂的查询,而是每天运行前 10 个,每个 IP 地址每周运行前 10 个。
并且必须节省存储空间
最佳答案
如果您不需要每个 ip 访问时间戳都精确到秒,您可以将每一天分成一系列时间段(可能每 10 或 5 分钟一个段)。每个日期时间段在时间段表中都有一个 id。然后,您可以为 ip 表中的每个唯一 IP 地址创建一个 id。
然后您有一个连接表,您可以在其中将 IP 地址(外键)与具有计数(无符号整数)的时间段(外键)相关联。因此,您的核心访问行数据现在减少为 2 个 ID 和 1 个无符号整数(最重要的是,没有字符串)。
所以当你收到一个IP的请求时,你判断当前的时间段,如果那个时间段不存在,就为新的时间段创建一行。如果当前时间段与IP没有关联,则创建一个新行,计数为1。如果该时间段和IP有一行,则增加计数。
通过这种方式规范化数据/表格并略微降低准确性,您实现了一种信息压缩形式。尝试使用时间段间隔来找到最佳权衡。例如。如果您不需要几分钟甚至几小时的查询粒度,您可以将时间段设置为一天。
更新:
是的,所以上面的所有内容都是压缩来自同一 IP 地址的多次点击。与唯一点击相比,这显然更有效,你获得的重复点击越多。如果您只关心独特的点击率,则完全无关紧要。
有多种方法可以将 IPv4 地址压缩为 unsigned int(32 位)。只是位移每个 a.b.c.d
部分转换为字节 0xff000000
, 0x00ff0000
, 0x0000ff00
, 0x000000ff
分别。
这样,每个 IP 使用 4 个字节而不是字符串;在这一点上存储外键是没有用的(无论如何至少需要 4 个字节)。因此,您可以只拥有一个包含字段的非规范化表:(IPv4 作为编码的无符号整数,日期时间/时间戳作为 4 字节整数)。您可能会用日期和计数替换日期时间,具体取决于多次点击对您是否重要。如果多次点击不算数,您真的可以使用 int 表示 IP 和 int 表示日期。
如果 day-granulartiy 是您需要的最低粒度,则还有一个更进一步的选择:您可以在每天结束时清除此 IP 数据库表,并将聚合查询的结果仅存储在数据库中。其余数据可以每天存档并从 IP 数据库表中删除。这意味着您的表只需要一个字段:编码的 IP 作为 unsigned int。在这一点上,问题就变成了每天构建大量独特的整数集。
您还可以将时间(或时间段)扁平化/非规范化为 int(或什至更小),这取决于您想要记录时间的频率/粒度,以及您是否选择聚合/存档/清除定期 IP 数据库表。
另一种以压缩方式存储多个 IP 地址的方法是使用 trie数据结构,但是它不直接映射到数据库存储(与内存数据结构相比)。通过 SQL 存储树结构(例如 trie)的一种方法是使用 Materialized Path方法 - 但是,此方法无法实现良好的数据压缩,而且查询开销可能不值得。
关于mysql - 存储数以百万计的每日 IP 地址日志,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17102672/
目前,我有以下设置: A记录: mydomain.com - aaa.aaa.aaa.aaa subdomain.mydomain.com - aaa.aaa.aaa.aaa NS记录: mydoma
有人可以帮助我以最佳方式在流畅的 nHibernate 中映射以下情况吗? Address 类用于 Client 和 Company。如何在 SQL 中最有效地存储它?映射应该是什么样的?我已经考虑过
我正在尝试编写一个 Windows 应用程序,它将在来自 PC 的以太网链接上生成流量。 我想使用 webBrowser 控件不断拉取网页以产生流量。 在这种情况下,我希望每个 webBrowser
我正在编写一个 SIP 堆栈,我需要在消息中插入一个 IP 地址。该地址必须是用于发送消息的地址。我知道目标 IP 并且需要确定将用于发送消息的 NIC(其地址).... 最佳答案 为了扩展 Remy
如何使用 IP 地址获取 MAC 地址,但以下代码不起作用 packet = ARP(op=ARP.who_has,psrc="some ip",pdst = ip) response = srp(p
目前我想知道如何实现对本地无线网络(路由器)的获取请求以获取当前连接到当前连接的 LAN 的所有设备.... 所以我做了一些研究,显然“nmap”是一个终端/命令提示符命令,它将连接的设备返回到本地无
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicates: how to find MAC address in MAC OS X programmatically
我们正在为 ipad 开发一个 iOS 应用程序,它使用 bonjour 与其他设备连接,使用 couchbaseListener 与对等数据库进行复制。我们观察到,每当 [nsnetservice
我创建了 3 个实例,其中 3 个弹性 IP 地址指向这些实例。 我做了 dsc 的 yum 安装:dsc12.noarch 1.2.13-1 @datastax 并且/etc/cassandra/d
我正在尝试获取规模集中所有虚拟机的私有(private) IP 地址列表(没有一个虚拟机故意拥有任何公共(public) IP 地址)。我找到了如何从 az cli 获取此内容,如下所示: az vm
我正在尝试获取规模集中所有虚拟机的私有(private) IP 地址列表(没有一个虚拟机故意拥有任何公共(public) IP 地址)。我找到了如何从 az cli 获取此内容,如下所示: az vm
我正在尝试与该端口上的任何 IP 建立连接。最初,我将其设置为 10.0.0.7,这是我网络上另一台计算机的 IP,因此我可以测试客户端/服务器。但是,我希望它可以与任何计算机一起使用而不必将 IP
作为序言,我开发了自己的 CRM(类似于 SalesForce 或 SAP),其“规模”要小得多,因为它面向服务,而不是销售。我在 Ubuntu 16.04 服务器上使用 MySql 或 MariaD
在我的项目中,我想做如下事情: static void test0(void) { printf("%s [%d]\n", __func__, __LINE__); } static void
我的机器上有两个网卡,配置了两个独立的 IP 地址。两个 IP 地址都属于同一个网络。我是否正确地说,当我创建一个特定于这些 IP 地址之一的套接字时? 更新: 这是我的情况: 我有一个位于 192.
当然,我意识到没有一种“正确的方法”来设计 SQL 数据库,但我想就我的特定场景中的优劣获得一些意见。 目前,我正在设计一个订单输入模块(带有 SQL Server 2008 的 Windows .N
我们将保存大量地址数据(在我公司的眼中,每个客户大约有150.000至500.000行)。 地址数据包含约5列: 名称1 名称2 街(+否) 邮政编码 市 也许以后再添加一些东西(例如电话,邮件等)
好的,我们在生产中实现了 Recaptcha。我们收到错误是因为它无法到达使用该服务所需的 IP 地址。我们为 IP 地址打开一个端口以到达 Google。没问题。我们这样做并显式配置该 IP 地址以
此页面使用 Drupals 联系表发送电子邮件:http://www.westlake.school.nz/contact 问题是,学校员工使用 outlook。当他们收到来自 parent 等的电子
是否可以将用户输入的邮政编码转换为文本框并将其转换为CLLocation?我正在尝试比较其当前位置与地址或邮政编码之间的距离,如果可以从NSString中创建CLLocation,这将很容易。 最佳答
我是一名优秀的程序员,十分优秀!