高效构建vivo企业级网络流量分析系统

转载作者：我是一只小鸟更新时间：2023-08-04 14:31:52

作者：vivo 互联网服务器团队- Ming Yujia 。

随着网络规模的快速发展，网络状况的良好与否已经直接关系到了企业的日常收益，故障中的每一秒都会导致大量的用户流失与经济亏损。因此，如何快速发现网络问题与定位异常流量已经成为大型企业内必须优先解决的问题，诸多网络流量分析技术也同时应运而生.

1、概述

随着网络规模的快速发展，网络状况的良好与否已经直接关系到了企业的日常收益，故障中的每一秒都会导致大量的用户流失与经济亏损。每一家企业都在不断完善自己的网络监控手段，但在监控体系建设过程中，却又不可避免的面临以下难点 :

网络流量数据庞大：由于网络流量的规模和复杂性都非常高，很难对大量的数据进行有效的监控和分析.
流量数据采集分析建设成本高昂：为获取准确的流量数据，需要使用高效的数据采集技术和大容量的存储设备，以及大量的开发资源，这使得监控成本直线上升.
监控手段单1、缺乏扩展性：传统的监控手段一般只能监控固定的几个数据点，难以针对不同的网络环境进行定制化和扩展.
难以快速定位和解决问题：由于网络流量数据量大、变化频繁，往往需要花费大量的时间和精力才能找出问题根源.

因此，如何利用尽可能低的监控成本快速发现网络问题与定位异常流量已经成为大型企业内必须优先解决的问题，诸多网络流量分析技术也同时应运而生.

sFlow技术就是这样一种高效、灵活的解决方案。它可以通过流量采样技术抽取数据包中的部分信息，从而实现对大量网络流量数据进行持续监控。同时，sFlow技术还具有灵活的配置和扩展性，可以根据实际需求进行定制，并支持多种网络设备和协议。这些优势使得sFlow技术在现代网络监控和管理中得到广泛应用.

2、常见的网络流量采集技术

主流的网络流量采集主要分为全流量采集与采样流量采集两种.

2.1 全流量采集

全流量采集包括端口镜像、分光设备等方式。在流量庞大的网络中，使用端口镜像方式不仅会导致全链路时延增加，而且会使吞吐量庞大情况下的网络设备压力激增。分光设备虽然可以降低链路时延，但同样存在采购价格高昂的门槛。除此之外，由于大型企业内IDC规模庞大，由此导致的全流量数据量也会激增，想要完整的靠自研做好全流量数据分析，不仅需要一定的存储计算资源，也需要一定的软件开发周期，不利于项目的快速搭建成型.

2.2 采样流量采集

在流量分析系统欠缺的情况下，使用采样分析的优势就体现出来了，相对于全流量，他部署成本低，数据分析代价小，很适合对异常流量的快速定位以及网络内的趋势占比分析。以下主要对比介绍sFlow与Netflow两种采样方式的优缺点.

sFlow在流量监控上范围更广，在满足硬件要求的IDC内部环境，使用sFlow进行采样流量监测，可以有效降低网络设备负载，并且提供实时流量监控手段，以应对突发网络异常场景.

3、基于sFlow的系统设计

3.1 基础设计

在满足硬件条件的情况下，基于sFlow的基础系统设计很简单，使用sFlow agent + sFlow collector + sFlow analyser即可实现整个流程的数据闭环.

sFlow agent ：通过enabled相关网络设备上的sFlow能力，设定采样比等参数并制定收集端相应地址，即可对端口收发流量进行采集。agent侧更重要的反而是如何确定采集的网络设备范围，相对于无目的的全量网络设备部署，针对边界核心网络设备进行部署更有意义，因为所有的对外流量最终都必须经过边界网络设备。在能更好监控外部流量异常的情况下，也能减轻数据存储负担.

sFlow collector ：收集并解析agent侧采集传输的 sFlow datagrams.

sFlow analyser ：对格式化的数据进行可视化分析展示，以供网络管理员进行有效观测分析.

3.2 开源+自研：架构进阶

在确定了基本架构之后，如何进行组件选用与定制化功能扩充，开源解决方案elastiflow为我们提供了很好的示例，笔者基于开源进行了扩展，以满足更多定制化功能.

。

sFlow agent ：使用上报统一vip的形式进行端口流量采样（官方规定的采样比需是2^n），可以利用vip的LB能力进行负载均衡，使得sFlow报文均衡打到收集端固定端口。针对不同的网络线路设定不同的采样比，在降低数据存储的同时也可以保证重要线路更高的精准性.

sFlow collector ：使用ELK套件进行数据收集与可视化分析是比较成熟的技术方案之一。因此，收集端我们使用logstash进行原生数据报文收集与解析。elastiflow的作者使用了logstash内原生的udp-sFlow报文解析组件进行数据解析，但笔者在实际测试中发现，虽然该方案能得到结构化更好的数据格式，但在数据解析的性能表现上很差，在数据量庞大的情况下会造成大量数据丢包现象，导致数据准确性下降。而sFlowtool由于底层是基于C语言来编写的，在性能表现上很优异，单物理机（32c64g）即可达到10w+tps，虽然对sFlow报文解析后的数据结构化要弱一点，但可以在后续分析模块对数据进行清洗与结构化构建。sFlowtool分析的数据示例如下所示。经由logstash的数据发送到kafka消息队列中.

                        
                          [root@server src]# ./sFlowtool -l
FLOW,10.0.0.254,0,0,00902773db08,001083265e00,0x0800,0,0,10.0.0.1,10.0.0.254,17,0x00,64,35690,161,0x00,143,125,80
FLOW后的字段释义如下
agent_address
inputPort
outputPort
src_MAC
dst_MAC
ethernet_type
in_vlan
out_vlan
src_IP
dst_IP
IP_protocol
ip_tos
ip_ttl
udp_src_port OR tcp_src_port OR icmp_type
udp_dst_port OR tcp_dst_port OR icmp_code
tcp_flags
packet_size
IP_size
sampling_rate

sFlow analyser ：通过从kafka实时消费数据，将数据进行清洗结构化，并借助三方meta data，对解析后的数据进行软件定义，以便于后续存储与分析.

database+display ：使用Elasticsearch+Kibana进行存储与可视化展示，同时也可以利用mertic beat对logstash的采集性能进行监控。Kibana作为Bi类的数据可视化方案，提供了大部分可供免费使用的图表及Dashboard，可以很好的进行可视化分析.

3.3 分析端软件定义

拥有原生数据的情况下，我们已经能基于一些ip五元组等进行基本会话流量分析。但是流量数据所能体现的价值远不止这些，利用企业内其他的cmdb等平台，可以为我们的流量数据提供更大价值.

网络设备维度：通过数据内的交换机地址，出入向端口，可以根据采集配置的交换机端口index，判断该条流量出入向。也可基于网络设备ip，赋予其通道，线路，以及设备名等等其他属性.

ip维度：ip五元组提供了探索数据更高的可能，我们可以根据归属ip，判断他的项目，部门等归属信息，也可反向关联域名。这在对异常流量进行分析判断时能够快速定位到所属业务方，很大程度提高了运维效率.

3.4 压缩存储与可视化自研

由于Elasticsearch本身的数据压缩效果不够理想，使得我们在进行长时间存储数据时体量庞大臃肿。相应的，olap型数据库Druid很好地解决了这个问题，数据采样后经过分析端严格的结构化处理，可以在Druid内实现很好的数据压缩。除此之外，Druid内嵌的数据预聚合能力也能更好的帮助我们对历史数据进行降精处理，减少存储压力。切换存储引擎后，也就意味着没办法再使用Kibana进行通用展示，使用自研的web服务框架也能够应对灵活的需求场景，实现更多定制化的分析.

3.5 基于Celery设计的轻量流处理模型

虽然流量数据经过了采样降精，但整体的数据量依然很庞大。高效快速的进行流处理，降低整体系统时延至30s内，能够更快的帮助网络管理人员发现问题，除却利用传统的流处理工具外，我们也可以使用Celery来构建一个轻量高效易扩展的分布式流处理集群.

Celery是一个简单、灵活且可靠的，处理大量消息的分布式系统，专注于实时处理的异步任务队列，同时也支持任务调度。我们基于celery实时异步处理的特性，设计 celerybeat → watcher → producer → consumer 的消费链路来进行流处理.

celery beat ：作为定时任务的触发器，每1s向watcher队列里派发一个新任务.

watcher worker ：在队列中拿到任务后，转发给producer，并根据设置的队列最大值，对producer队列进行拥塞控制.

producer worker：在队列中拿到任务后，从kafka中获取采集的流量数据，按照batch size批量发送给consumer队列，并根据设置的队列最大值，对consumer队列进行拥塞控制.

consumer worker ：在队列中拿到任务后，根据本地缓存/共享缓存内的业务信息，对采集数据进行数据清洗，打业务标签等操作，并写入另一kakfa或直接写入database.

每一个角色以及节点可以通过Celery broker进行通信，实现分布式集群部署，针对consumer单元化操作，可以使用eventlet以协程方式启动，以保证集群高并发消费.

4、应用场景

4.1 机房维度流量分析

通过基于网络cmdb的ip匹配，对流量数据进行机房维度的汇总，可以得到机房整体的对外出入向流量分析，在IDC同外部交互时，整体流量的趋势变化，是判断带宽占用程度的直接标准.

4.2 网络线路信息关联

通过对网络设备基于ip+ifindex的逻辑信息映射，可以对核心通道线路做到聚合展示，在针对一些公网线路异常，专用线路带宽打满等异常问题时，通过观察线路分析可以直接准确定位故障发生的第一时间点.

4.3 ip会话信息挖掘

虽然sflow只截取了报文的头部信息而不包含数据包部分，但ip五元组本身也提供了极大的网络流量分析价值.

利用会话信息，我们可以准确有效的定位异常流量的ip归属，通过ip+服务端口的，我们甚至可以定位具体产生流量异常的服务与进程，从而做出下一步决策。除此之外，ip也能同企业内CMDB产生联动，定位到ip所属资源的所在资源组，从而得到不同部门/行政组产生的流量占比分析，这同时也有利于在产生异常流量时第一时间感知到相关业务，并进行通知管控.

4.4 ip归属地分析

除了结合内部信息，通过运营商提供的归属地信息，我们可以查看ip访问的来源，进行相关归属地分析与Dashboard制作.

5、总结

要实现对网络全面、实时的监控分析必须依靠先进有效的网络监控协议和技术来满足业务日益增长的需求。基于sFlow的流量分析虽然在轻量化构建上有着很大的优势，在面对异常流量时也能够基于流量趋势与分布占比做出快速反应。但sFlow本身的采样却不包含报文内数据包的信息，针对一些sql注入、数据安全等等网络安全攻防问题，没办法提供准确定位与解决方案。因此，全流量分析也应是流量分析系统未来必不可少的一环，两者相结合才能够提供更全面、更精细化的流量监控，为数据中心的网络安全保驾护航.

6、未来展望

虽然sFlow技术在网络性能监控和管理领域中得到了广泛应用，但在未来更大规模的网络流量场景冲击下，还需要具备更多的能力:

1.支持更多协议和应用：sFlow监控的思想不仅适用于网络流量，还可以监控应用流量、虚拟化环境、云平台等。未来，sFlow技术应该支持更多的协议和应用，以更好地适应新型网络环境.

2.自适应流量采集技术：sFlow技术的流量采集技术是固定周期的，但是随着网络流量的变化，固定周期的采集可能无法准确反映网络实时状态。未来，sFlow监控技术应该支持自适应流量采集技术，能够根据实际网络流量变化自动调整采集周期.

3.便捷的管理功能：sFlow目前的配置更多依赖于网络管理人员在交换机上进行配置，无法实现一键下发，自动发现，快速调整采样比等等功能，未来更需要一个能够便捷下发命令，热加载配置变更的sFlow管理平台.

最后此篇关于高效构建vivo企业级网络流量分析系统的文章就讲到这里了,如果你想了解更多关于高效构建vivo企业级网络流量分析系统的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐： SpringCloud-Hystrix服务熔断与降级工作原理&源码

文章推荐：基于Go编写一个可视化Navicat本地密码解析器

文章推荐：实现地图遮罩leaflet

文章推荐： Xshell使用技巧及常用配置

android - java.lang.ClassNotFoundException : android. 网络.网络
这与 Payubiz payment gateway sdk 关系不大一体化。但是，主要问题与构建项目有关。每当我们尝试在模拟器上运行应用程序时。我们得到以下失败: What went wrong:
Docker 链接容器、Docker 网络、Compose 网络 - 我们现在应该如何 'link' 容器
我有一个现有的应用程序，其中包含在同一主机上运行的 4 个 docker 容器。它们已使用 link 命令链接在一起。然而，在 docker 升级后，link 行为已被弃用，并且似乎有所改变。我们现
网络:传输层和网络层之间的区别
在 Internet 模型中有四层:链路 -> 网络 -> 传输 -> 应用程序。我真的不知道网络层和传输层之间的区别。当我读到: Transport layer: include congesti
python ，网络
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
初始 http【网络】
前言：生活中，我们在上网时，打开一个网页，就可以看到网址，如下： https😕/xhuahua.blog.csdn.net/ 访问网站使用的协议类型：https(基于 http 实现的，只不过在
171、HBase性能调整：网络
网络避免网络问题降低Hadoop和HBase性能的最重要因素可能是所使用的交换硬件，在项目范围的早期做出的决策可能会导致群集大小增加一倍或三倍（或更多）时出现重大问题。需要考虑的重要事项：
189、故障排除和调试HBase：网络
网络网络峰值如果您看到定期的网络峰值，您可能需要检查compactionQueues以查看主要压缩是否正在发生。有关管理压缩的更多信息，请参阅管理压缩部分的内容。 Loopback IP
NoFlo - 如何启动图形/网络
Pure Data 有一个 loadbang 组件，它按照它说的做:当图形开始运行时发送一个 bang。 NoFlo 的 core/Kick 在其 IN 输入被击中之前不会发送其数据，并且您无法在 n
kubernetes - Minikube 网络
我有一台 Linux 构建机器，我也安装了 minikube。在 minikube 实例中，我安装了 artifactory，我将使用它来存储各种构建工件我现在希望能够在我的开发机器上做一些工作(这
http - 我需要多少种视频格式？ - 网络
我想知道每个视频需要多少种不同的格式才能支持所有主要设备？在我考虑的主要设备中:安卓手机 + iPhone + iPad . 对具有不同比特率的视频进行编码也是一种好习惯吗？那里有太多相互矛盾的信
Flutter 网络 flavor
我有一个使用 firebase 的 Flutter Web 应用程序，我有两个 firebase 项目(dev 和 prod)。我想为这个项目设置 Flavors(只是网络没有移动)。在移动端，我
passwords - 传输前对密码进行哈希处理？ (网络)
我正在读这篇文章Ars article关于密码安全，它提到有一些网站“在传输之前对密码进行哈希处理”？现在，假设这不使用 SSL 连接 (HTTPS)，a.这真的安全吗？ b．如果是的话，你会如何在
networking - docker 网络
我试图了解以下之间的关系: eth0在主机上；和 docker0桥;和 eth0每个容器上的接口(interface) 据我了解，Docker: 创建一个 docker0桥接，然后为其分配一个与主机上
java - 不可序列化对象 - 网络
我需要编写一个java程序，通过网络将对象发送到客户端程序。问题是一些需要发送的对象是不可序列化的。如何最好地解决这个问题？最佳答案发送在客户端重建对象所需的数据。关于java - 不可序列化对
Java 网络，不仅仅是简单的聊天室
所以我最近关注了this有关用 Java 制作基本聊天室的教程。它使用多线程，是一个“面向连接”的服务器。我想知道如何使用相同的 Sockets 和 ServerSockets 来发送对象的 3d 位
java图像接收(网络)服务器
我想制作一个系统，其中java客户端程序将图像发送到中央服务器。中央服务器保存它们并运行使用这些图像的网站。我应该如何发送图像以及如何接收它们？我可以使用同一个网络服务器来接收和显示网站吗？最佳答
email - 网络::SMTPAuthenticationError
我正在尝试设置我的 rails 4 应用程序，以便它发送电子邮件。有谁知道我为什么会得到: Net::SMTPAuthenticationError 534-5.7.9 Application-spe
Java 网络 - 连接两台计算机
我正在尝试编写一个简单的客户端-服务器程序，它将客户端计算机连接到服务器计算机。到目前为止，我的代码在本地主机上运行良好，但是当我将客户端代码中的 IP 地址替换为服务器计算机的本地 IP 地址时，
Java 网络 - 在同一线程中的不同端口上并行启动多个服务器套接字
我需要在服务器上并行启动多个端口，并且所有服务器套接字都应在 socket.accept() 上阻塞。同一个线程需要启动客户端套接字(许多)来连接到特定的 ServerSocket。这能实现吗？
java - 网络/数据库作业的足够线程数
我的工作执行了大约 10000 次以下任务: 1) HTTP 请求(1 秒) 2)数据转换(0.3秒) 3)数据库插入(0.7秒) 每次迭代的总时间约为 2 秒，分布如上所述。我想做多任务处理，但我

我是一只小鸟

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

高效构建vivo企业级网络流量分析系统

1、概述

2、常见的网络流量采集技术

2.1 全流量采集

2.2 采样流量采集

3、基于sFlow的系统设计

3.1 基础设计

3.2 开源+自研：架构进阶

3.3 分析端软件定义

3.4 压缩存储与可视化自研

3.5 基于Celery设计的轻量流处理模型

4、应用场景

4.1 机房维度流量分析

4.2 网络线路信息关联

4.3 ip会话信息挖掘

4.4 ip归属地分析

5、总结

6、未来展望

首页

博学

6Ren·AI

商城

高效构建vivo企业级网络流量分析系统

﻿1、概述

2、常见的网络流量采集技术

2.1 全流量采集

2.2 采样流量采集

3、基于sFlow的系统设计

3.1 基础设计

3.2 开源+自研：架构进阶

3.3 分析端软件定义

3.4 压缩存储与可视化自研

3.5 基于Celery设计的轻量流处理模型

4、应用场景

4.1 机房维度流量分析

4.2 网络线路信息关联

4.3 ip会话信息挖掘

4.4 ip归属地分析

5、总结

6、未来展望

1、概述