vivo云原生容器探索和落地实践

转载作者：我是一只小鸟更新时间：2022-12-19 14:31:21

作者：vivo 互联网容器团队- Pan Liangbiao 。

本文根据潘良彪老师在“2022 vivo开发者大会"现场演讲内容整理而成。公众号回复【2022 VDC】获取互联网技术分会场议题相关资料.

2018年起，vivo以容器作为基础底座，打造了一站式云原生机器学习平台。向上支撑了算法中台，为算法工程师提供数据管理、模型训练、模型管理、模型部署等能力，为广告、推荐和搜索等业务赋能，成功为算法实现了降本、提效，让云原生和容器价值初露锋芒。基于机器学习平台的试点成果，经过算法场景的试点实践和价值分析，对内部战略做了升级。确定基于云原生理念去构建行业一流的容器生态，实现规模化的降本提效目标.

本文会详细介绍vivo在容器集群高可用建设中的具体实践，包括在容器集群高可用建设、容器集群自动化运维、容器平台架构升级、容器平台能力增强、容器生态打通等层面的打磨和建设。目前，vivo容器产品能力矩阵逐渐趋于完善，并将围绕全面容器化、拥抱云原生和在离线混部三个方向继续发力.

云原生和容器，是当下比较火热的话题，其中 Kubernetes更是成为容器编排领域的事实标准.

国内外各企业在内部落地云原生和容器的过程中，基于自己的业务场景和发展阶段，会遇到各种问题和挑战，本文是vivo在云原生容器领域的探索和落地实践，希望能对读者有一些借鉴和帮助.

1、容器技术和云原生理念

首先是容器技术和云原生理念的介绍.

1.1 容器技术简介

容器技术不是一个新技术，从1979年unix系统的chroot诞生到现在，历经40多年的发展，共经过了四个阶段，分别是：技术萌芽期、技术迸发期、商用探索期和商用拓展期 .

每个阶段，解决了不同的技术问题，分别是：环境隔离、软件分发和编排、商用服务形态、规模化和场景拓展.

相比于虚拟机，容器技术少了一层虚拟操作系统的损耗，因此它比虚拟机具有更好的性能表现。另外容器在系统资源、启动时间、集群规模、高可用策略等方面，也有非常明显的优势.

2020年CNCF中国云原生调查报告显示，接受调查的中国企业，有68%已经在生产环境使用容器技术.

从行业发展看，不管是云厂商还是各大科技公司，都在基于容器技术构建自己的新一代基础架构，推动企业数字创新。容器技术已经得到广泛的认可和普及.

1.2 云原生理念介绍

容器技术催生了云原生思潮，云原生生态推动了容器技术的发展。那么云原生的准确定义和含义是什么呢?

云原生其实没有标准定义，如果非要给他一个定义，行业有两种观点:

一个定义来自Pivotal 这家公司，它是云原生应用的提出者，是云原生的先驱者、探路者。Pivotal最新的官网对云原生的介绍有四个要点，分别是： DevOps、持续交付、微服务和容器 .
另外一个定义来自CNCF，CNCF建立于2015年，它是一个开源组织，其存在的目的，是支持开源社区开发关键的云原生组件，包括 Kubernetes、Prometheus监控等.

它把云原生分为 3种核心技术和 2个核心理念 :

3种核心技术：分别是容器、微服务、服务网格 .
2个核心理念：分别指不可变基础设施和声明式API .

但是，不管是那一种定义，容器都是其基础，是云原生落地的核心技术手段.

1.3 云原生价值分析

任何技术和理念，都必须有实际的业务价值。从效率、成本、质量三个维度，来分析云原生和容器的技术价值，可总结如下:

效率：可实现持续交付部署快、镜像封装可移植、弹性计算秒扩容.
成本：可实现按需分配不浪费、统一调度高填充、混合部署少碎片.
质量：可实现运行状态可观测、故障发生可自愈、集群管理可运维.

2、vivo 容器技术探索与实践

新技术的引入带来新的价值，也必然会引入新的问题，接下来介绍vivo在容器技术上的探索和实践.

2.1 试点探索

在vivo的算法场景中，机器学习平台负责算法模型迭代，是互联网算法业务中核心的一环，早期的平台基于传统的架构，在效率、成本、性能和体验上均有一定的不足，无法满足算法业务快速增长的诉求。基于此，我们首先在算法场景进行容器的试点探索。从2018年开始，我们以容器作为基础底座，打造了vivo的一站式云原生机器学习平台，向上支撑了公司的算法中台，为算法工程师提供数据管理、模型训练、模型管理、模型部署等能力，为广告、推荐和搜索等业务赋能.

vivo的云原生机器学习平台具备如下5大优势:

场景全：业务端到端，覆盖推荐、广告、搜索多场景.
体验好：排队时间短，用户体验优，任务P99排队时长小于45分钟.
成本低：调度能力好，资源利用率高，CPU利用率均值大于45%.
效率高：网络规模大，训练跑得快，训练速度8.3亿样本每小时.
结果优：算法迭代稳定，训练成功率高，训练成功率大于95%.

vivo云原生机器学习平台，成功为算法实现了降本、提效，让云原生和容器价值初露锋芒.

2.2 价值挖掘

基于前面机器学习平台的试点成果，我们深入分析和挖掘容器和云原生的价值，结合vivo的情况，我们发现容器和云原生是企业大规模降本和提效的最佳方案.

1）在降本方面。

当前我们内部服务器资源的利用率较低，以CPU利用率为例，当前vivo服务器整体利用率均值在25%左右，相比行业一流水平的40%～50%，还有不少的提升空间.

容器在资源隔离、统一调度和在离线混部等方面的优势，均是提升资源ROI的有效技术手段.

2）在提效方面。

当前我们在中间件版本升级、机器迁移、测试环境管理、突发流量应对和全球化部署的环境一致性等方面均有业务痛点.

容器的快速交付、弹性自运维、微服务、服务网格等云原生技术和架构，则是提效的有力措施.

2.3 战略升级

经过算法场景的试点实践和价值分析，我们对内部战略做了升级，确定基于云原生理念去构建行业一流的容器生态，实现规模化的降本提效目标.

为了更好匹配战略落地，拥抱云原生，我们还对内部技术架构重新规划和升级，新增引入统一流量接入平台、容器运维管理平台、统一名字服务、容器监控等平台和能力，支撑容器生态在公司内部的全面建设和推广.

2.4 面临挑战

2.4.1 集群挑战

要提供大规模的生产可用的容器服务，容器集群的可用性首先会面临诸多挑战。下面介绍vivo容器化，在生产集群建设过程中遇到的4个比较大的挑战.

集群规模快速增长： vivo集群服务器规模上万个宿主机节点，管理的集群数十个，单集群规模2千+，实例数10万+，对集群性能和机器管理挑战极大.
集群运维、运营和标准化：由于早期集群管理不规范，黑屏化操作和人为误操作等问题层出不穷，集群运维人员每天因为各种救火忙得焦头烂额.
集群容器监控架构和可观测性：随着集群规模快速增长，容器的监控组件面临极大压力，对容器监控的采集、存储和展示，提出更高的要求.
线上K8s版本升级迭代：面对Kubernetes版本的快速迭代，需要实现给飞行的飞机换引擎。。

针对挑战，我们的应对方案分别是：高可用、可观测、标准化和自动化。其中容器监控和k8s版本无损升级的挑战，vivo公众号有详细技术方案的介绍，本文侧重介绍集群高可用和运维自动化两部分.

2.4.2 平台挑战

除了集群稳定性的挑战，平台也将面临各种挑战，由于容器平台和周边生态能力不完善，对业务存在较高的适配和迁移成本。总结起来我们遇到的挑战主要有4点:

容器IP的变化： k8s早期把业务都设计成无状态的，其原生实现是每次发布容器的IP都会变化，这对部分依赖固定IP的传统业务不太友好，业务改造成本较高.
周边生态的适配和兼容：包括发布系统、中间件微服务平台、内部开发框架和流量接入层等。
用户使用习惯： vivo有比较成熟的发布平台，用户习惯按机房发布，习惯资源分配和发布分开操作.
价值输出：运维研发效率的提升不好量化，容器成本优势短期不好衡量.

上面这些挑战，推动我们要进行容器周边生态打通，同时通过增强容器平台产品能力，来适配各种业务场景，降低用户的迁移成本.

2.5 最佳实践

2.5.1 容器集群高可用建设

接下来，介绍vivo在容器集群高可用建设中的最佳实践，我们是从故障预防、故障发现和故障恢复，3个维度来构建容器集群可用性保障体系的.

1、在故障预防上，我们分别从流程工具、容灾能力和基础架构 3个方面来进行建设:

流程工具：主要包含故障预案和故障演练，以及通过建设运维管理平台，来实现运维标准化、白屏化和自动化.
容灾能力：主要是构建业务跨故障域容灾能力，保障集群故障时，服务和业务流量能跨集群调度和快速一键迁移等.
基础架构：主要是通过屏蔽用户对底层集群的感知，一个机房多套集群，一个业务同时部署在多个集群上，避免单集群故障对业务造成影响.

2、在故障发现上，我们主要是通过，自建的监控大盘、日常集群巡检、核心组件监控、集群外拨测等措施，对故障及时发现和处理，降低对业务影响.

3、在故障恢复上，主要是基于前面的故障预案，快速恢复，及时止损，并做好故障的复盘，不断改进我们的故障预防和发现机制，沉淀宝贵经验.

另外，集群的可观测性是可用性保障的一个重要依据，我们通过建设自己的SLO面板，对集群状态实时地进行监控，只有对运营状况了如指掌，才能做到稳如泰山，沉着应对一切变化.

2.5.2 容器集群自动化运维

除了容器集群自身稳定性建设，在运维自动化方面，我们建设了容器多集群管理平台，实现集群配置标准化，核心运维场景白屏化，来提升运维效率.

我们的容器集群管理平台，是以云原生的方式来管理云原生，简单来说，就是基于k8s的operator机制，实现k8s on k8s。。

当前，我们的平台已经能够实现多集群的统一纳管，集群部署也是自动化、标准化的，还实现了底层IAAS层打通，集群节点能全流程化、可视化的一键扩缩容，而集群巡检功能，可以帮助我们及时发现集群的问题和隐患。。

通过平台进行日常运维和操作，不仅能提升效率，也具备审计能力，有操作和变更日志可追溯，便于问题定位.

2.5.3 容器平台架构升级

为适应业务容器化在内部的快速普及和推广，我们升级了vivo的容器平台架构.

新的架构分为4层，容器+k8s则作为基础的统一底座，向下对接公司IAAS层的基础设施，向上提供容器产品和平台能力，并通过开放API供上层调用和定制自己的上层逻辑.

API之上是容器支持的各种服务类型，包括在线服务、中间件服务、大数据计算、算法训练、实时计算等，最上面是为vivo互联网各个业务进行赋能.

基于这套容器平台架构，业务能实现资源隔离部署、快速交付和按需使用，同时也具备更好的弹性伸缩能力。对平台，我们可以统一资源的调度，实现资源的分时复用、在离线混部等，来提升资源的利用率.

2.5.4 容器平台能力增强

vivo内部容器化场景比较多样化，为了让业务能够安心、低成本的接入和使用容器的能力，在推广过程中，我们基于开源+自研做了容器的适配和原生能力的增强.

下面对6个产品能力增强进行简单的分享:

云原生工作负载增强：基于开源的openkruise，对原生deployment、statefulset等workload进行了增强，实现诸如原地升级、发布暂停、流式和配置优先级等扩展能力.
服务无损发布增强：基于内部框架和平台自主研发，实现HTTP、RPC等协议框架的流量无损发布.
容器镜像安全：基于开源的Harbor定制开发，实现容器镜像安全扫描和卡控能力.
容器镜像加速：基于开源dragonfly2定制扩展，让大规模集群镜像的分发性能提升80%以上.
IP固定能力增强：基于有状态服务和CNI进行自研，支撑黑白名单、有状态服务场景诉求，降低业务接入改造成本.
多集群管理能力增强：基于开源Karmada进行功能优化和扩展，提升业务容灾能力，支撑单集群横向扩展能力.

当然，在充分享受开源红利的同时，我们也持续地参与开源协同，回馈社区。在使用和自研的过程中，我们也把自己生产实践过程中发现的问题和积累的经验提交到社区，例如Dragonfly2、Karmada等.

2.5.5 容器CICD一体化

除了平台能力的增强，容器平台作为一个PaaS平台，需要和周边的生态打通，才能让业务更好的迁移和使用，其中最重要的就是发布系统的打通，也就是CICD平台.

几乎每个科技公司都会有自己的CICD，它是一个DevOps自动化的工具，可进行业务构建和编排部署的流水线.

vivo的CICD平台底层架构是基于JenKins+Spinnaker实现的，整个容器构建和部署流程如下:

首先，用户在CICD平台上创建好发布过程的流水线配置并保存.
其次，CI环节可实现和内部GitLab对接，拉取代码，基于jenkins进行代码编译和镜像构建，构建好的镜像经过安全扫描后，推送到开发环境的镜像仓库.
最后，在CD环节，CICD平台会调用容器平台提供的API，进行开发、测试、预发和生产环境的部署操作.

2.5.6 统一流量接入

接下来，介绍容器生态里，最重要的业务流量接入层的打通.

早期，vivo内部是基于Nginx，来实现的南北流量和东西流量的转发。在虚拟机和物理机场景能比较好的支撑，随着容器在内部全面的推广，传统的Nginx架构已不能适配.

主要体现在，容器场景业务实例数量，相比原来虚拟机和物理机成倍数增长，容器发布过程IP的频发变化和状态同步，都会对Nginx集群造成非常大的压力，在业务请求量非常大的情况下，接入层的配置文件刷新和加载，会造成业务的抖动，这是我们不能接受的.

基于这个背景，我们基于APISIX构建了云原生流量接入层，来适应全面容器化的需求。经过一年多的建设，当前我们的统一流量接入平台已经能够很好的支撑容器化的接入，同时具备更好的扩展能力.

2.6 实践成果

2.6.1 产品能力矩阵完善

经过多年的打磨和建设，vivo容器产品能力矩阵趋于完善，整个产品能力矩阵，分为4层:

基础服务层：包含3类服务，镜像管理、集群运维和集群监控.
能力层：包含6个核心能力，分别是集群调度、CAAS-API、容器配置、容器业务监控告警、容器日志和平台扩展能力.
平台层：包含2大平台能力，分别是CI和CD.
业务层：当前覆盖了vivo互联网所有业务场景.

2.6.2 业务接入成果凸显

接下来，会具体介绍下vivo容器推广情况.

目前容器在vivo内部主要覆盖4大场景，分别是：互联网在线业务、算法在线、大数据计算和 AI算法训练等。接下来，会从接入规模和价值来简单介绍.

互联网在线服务：内部各个业务线均有大量服务运行在容器上，例如vivo商城、账号、浏览器、快应用、天气等，已经接入服务600+.
算法在线服务：当前接入500+服务，3000+服务器，涉及推广搜的各个业务线.
大数据计算服务：包含离线计算如Spark，实时计算如Flink、Olap等场景，当前接入集群20+.
AI算法训练：主要是提供GPU、CPU异构计算，业务场景如Tensorflow、mpi等场景，算力十几万核，以及若干GPU卡.

业务容器化后，给业务在降本提效上带来的效果非常明显，包括但不限于扩缩容效率、弹性伸缩能力、业务自愈能力、资源成本等方面.

2.7 实践总结

基于我们的探索和实践，可总结为技术价值、推广策略、平台建设和云原生突破4个维度的思考.

找价值：关注新技术，但不执着于技术本身，必须结合业务痛点和价值.
定策略：自下而上小范围试点探索，产生实际的业务价值，影响自上而下的战略调整.
建平台：当已经有比较完善的平台和能力时，要找到容器的切入点，进行融合共建，切忌推到重来；对于需要从0到1建设的新能力，需要果断的孵化创新.
求突破：在业务容器化过程中，为了快速容器化，我们做了许多的兼容和适配。为了更好的降本提效，未来，我们希望引导用户，实现从使用云原生，到用好云原生的突破.

总的来说，技术服务于业务，企业应基于自身现状，寻找合适的解决方案，并为业务创造价值.

3、vivo对云原生的未来展望

3.1 vivo基础架构发展

从过去看未来发展，回顾过去10年历程，vivo基础架构的发展经历了3个阶段:

阶段一：传统研发运维阶段，从2011到2018年，从早期的do分离研发模式，到基于openstack+kvm的虚拟化方案落地.
阶段二：应用架构互联网化阶段，从2018到2020年，容器化开始在vivo内部兴起.
阶段三：云原生基础架构演进阶段，从2021年到现在，云原生和容器将会在vivo内部有更多场景的应用和推广，如在离线混部等.

3.2 vivo云原生未来展望

回归事物本源思考，做正确的事，并把事情做正确。不盲从，有定力，基于价值，客观看待新技术发展，大胆假设、小心验证、实践出真知.

vivo云原生的未来，将会朝着3个方向发展，分别是全面容器化、拥抱云原生和在离线混部.

我们的愿景是：一次开发到处运行，通过自动运维实现极致效率和成本最优！。
对开发人员：我们希望大家成为那只遨游海上的蓝色鲸鱼，驮着我们的业务应用，一次构建到处分发，灵活调度和运维.
对管理者：我们希望追求效率的同时，能够实现成本最优.

最后此篇关于vivo云原生容器探索和落地实践的文章就讲到这里了,如果你想了解更多关于vivo云原生容器探索和落地实践的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐：上周热点回顾（12.12-12.18）

文章推荐：开局一张图，构建神奇的CSS效果

文章推荐：探究:普通人都是怎么入门编程

文章推荐：【机器学习】李宏毅——自监督式学习

cloud - 云、网格和集群有什么区别？
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit
Python，云 - 具有调度功能的在线网页抓取工具
我计划使用 python 开发一个 Web/云应用程序，它执行以下操作， 1.上传Perl/Python抓取脚本并执行。 2. 上传脚本以按计划运行。 3. 使用不同的输入参数运行同一脚本的多个实例。
Android 云 - 备份管理器与驱动器
我正在开发一个应用程序，我想实现一个功能，可以在相同的用户设备之间共享，比方说，收藏夹、书签等。所以，我想实现类似 iCloud 的东西。我想到了 2 个可能的想法:Backup Manager 和
Java 云 API
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
r - 创建词组而不是R中的单个词的 "word"云
我正在尝试从一系列短语中使一个单词云成为一个词云，而不是从单个单词中重复很多短语。我的数据看起来像这样，数据框的一列是短语列表。 df$names <- c("John", "John", "Jose
azure - 预配和配置 - Azure 云
对于配置AWS服务(EC2/R53/VPC/S3/..)，Terraform等技术在执行回滚、错误处理等方面的方法不可靠。 AWS CloudFormation 模板解决了这些问题。 CloudFor
Azure 云 shell 错误
我无法使用我的 Azure 帐户执行任何操作，例如创建服务器或数据库或任何操作。看起来这一切都围绕着我无法创建的资源组>我收到此错误: 这特别困难，因为我什至无法使用云外壳，因为我得到了这个:请求 C
websocket - 云/托管推送系统可以使用socket.io作为客户端吗？
是否有在客户端使用 socket.io 的云/托管推送系统？据我所知，没有一个系统使用 socket.io AFAIK: http://beaconpush.com/ http://pusher.co
RStudio 本地 + R 云
有没有办法在我的计算机上本地运行 RStudio，但使用运行 R 作为引擎的远程计算机而不是本地 R 安装？需要明确的是，我知道可以将 RStudio 服务器与 Web GUI 一起使用，但我问的是
java - 如何将视频直播发送到 azure 云？
我正在寻找在这种情况下可以使用的合适服务: 在视频模式下打开相机并将其流式传输到 azure 云。并从另一方聆听(也包括客户)。我读到了有关 Azure 媒体服务的信息。但根据this我知道客户
java - 将应用程序部署到 Google 云
这个问题已经有答案了: 已关闭12 年前。 Possible Duplicate: Google App Engine, getting started 如何将 Java 应用程序部署到 Google
java - 控制台应用程序的替代(云)部署选项
我有一个用 Java 7 编写的相当大的控制台应用程序，它管理大量的订单处理。该应用程序使用大量订单 Web 服务、与数据库交互并将数据插入 ERP 系统。该应用程序的要求没有指定用户交互，因此在项
azure - 是什么让项目适合 Azure/云？
我已经阅读过有关 Windows Azure 的内容，但为了深入了解这项技术，我(显然)需要使用它。我有一个小型 ASP.NET 网站，流量很少，我认为在 Azure 上托管该网站会节省我的钱。除此之
android - 将数据保存到 Parse 云
我的 Activity 中有 3 个编辑文本(姓名、手机号码、职业)和一个按钮(保存)。每次用户单击按钮时，我都想将这三个数据保存到 Parse-cloud。然后新 Activity 在 imagev
json - 传感器数据未上传至 artik 云
我正在尝试通过node.js 将传感器数据发送到artik cloud。 (使用网络套接字和串行端口)。但它发送空。有人知道原因吗？我刚刚复制了教程中的代码，因此没有语法错误。 var webSock
Docker 集线器与 Docker 云
我对 docker hub 和 docker cloud 有一点困惑。我有需要安装在客户端服务器中并运行容器的 docker 镜像。我相信这可以使用 docker hub 来完成，它允许在我的私有(p
这个华夏文明发源地，不仅有矿，还有“云”
晋城，华夏文化发祥地之一。两万年前留下高都遗址、塔水河、下川等人类遗址，女娲补天、愚公移山等神话传说，如今在云上有了崭新的魅力。 9月3日，阿里云数字中国行•晋城峰会期间，晋城市人民政府公布了
airflow - 云 Composer Airflow 插件使用
我刚开始使用 Airflow 插件，有点困惑。我在 GCP (composer-1.13.4-airflow-1.10.12) 上使用 Cloud Composer 作为托管服务运行它我按照文档编
分布式环境(云)中的 PHP XDebug
据我所知，PHP 分析工具 XDebug 将其结果保存到文件中。然而，当应用程序运行在云分布式环境中时，处理此类文件是很困难的。处理这种情况的最佳做法是什么？ XDebug 中是否有任何方法(最好是可
Azure 云 Web 服务、存储选项
我们正在将 PHP 网站迁移到 Azure 云 Web 服务(Web 角色)。目前，该网站通过驱动器盘符访问将用户提交的图像文件保存到文件系统。然后通过 URL 提供这些图像，例如content.e

我是一只小鸟

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城