多元融合：流媒体传输网络的全盘解法

转载作者：我是一只小鸟更新时间：2023-07-12 14:31:23

我们在寻找「网络」的全盘解法。

音视频数字化在消费领域的红利俨然见顶，而产业级视频应用激活了更多场景下的业务模式。与此同时，音视频客户也从单一的业务需求，趋向于多种业务并行存在的需求.

固有的网络能满足新兴的业态吗？延时与成本之间存在区间最优解吗？业务的升级切换如何不再费时费力？在成本可控下网络的稳定性怎样保障?

一张多元融合的流媒体传输网络可否解决全盘之困?

面向未来的流媒体传输网络，又将从何揭开其神秘面纱?

本文由IMMENSE、「阿里云视频云」通讯服务负责人黄海宇和LiveVideoStack策划、采访而成.

。

网络新基建，若隐若现

。

降本还是网络最大痛点吗？“元数据”是新主角吗?

网络基础设施升级、音视频传输技术迭代、WebRTC开源等发展，音视频业务在消费互联网领域蓬勃发展，并逐渐向产业互联网领域加速渗透.

然而，行业红利期退却之后，以往隐蔽的音视频业务现象，逐渐显露.

一方面， “降本”是持续热议的话题。而在音视频应用中，网络传输在IT成本中占比很高，例如，在一个典型的直播应用中，网络传输成本占总成本70%以上。于是，在降本增效的大背景下，降低网络传输成本，是行业客户和云厂商共同面临的课题.

另一方面， “延时”带来更多价值和空间。从消费端的实时交互，到产业端的实时远程，对视频流的延时要求越来越高，在云渲染、云游戏、数字虚拟场景中，涉及复杂的编码、解码、传输环节，而最复杂的瓶颈就在于传输网络的时延，但网络的构成与影响因素高度复杂，对其延时的提升也是极大挑战.

与此同时，新趋势的生长也带来更多挑战.

不久前，苹果Vision Pro在 WWDC 2023 亮相，推出其首个空间计算设备，将热度渐消的元宇宙重新拉回大众视野.

图片来源于网络。

对未来的想象，不再局限于头盔上的渲染视频，更涉及到云端的交互与合成。然而，元宇宙的真正繁荣，不仅需要MR硬件终端的性能升级，更取决于流媒体传输网络的迭代演进.

我们发现，当下的海量视频主要基于传统拍摄模式而生，可以预想，未来源自渲染合成的视频比例将显著增加，这一趋势势必带来海量的计算和传输需求，同样也带来计算成本和传输成本的极大考验.

同时，这也意味着网络需要承载更加不可估量的数据量级，这其中，不仅有常规的音视频，更涵盖更多维度的数据传输，比如基于远程场景、云游戏下的控制信令数据、用于控制渲染视频生成的“ 元数据 ”，可以表达更复杂的立体场景信息.

如此来看，需要一张承载多元内容的强大网络，同时提供高性能的云边计算能力，其作为新基建才能支撑未来式的视频化业态.

。

「Unified」能解决所有关键吗?

更低成本、更低延时、更多算力结合、更多维内容传输，这些无疑都是传输网络的趋势关键，而怎样的招式可以全盘解决？也许是“Uni”.

Uni源于Unified，意味着“ 统一 ”.

在网络上，我们正在探索落地更好的“Uni”技术、真正的“Uni”能力，创造由“Uni”带来的业务价值.

阿里云视频云基于广泛的异构节点，构建了全分布式、超低延时、多业务支撑的多元融合流媒体传输网络——MediaUni .

这是在我们的全球实时传输网络GRTN 之上，以“大一统”的理念对网络深化设计，实现网络底座的全新升级 .

MediaUni打通底层资源，统一技术架构，以一张流媒体传输网络，实现音视频应用中多形态的内容传输，并满足更低成本、更低延时的多元融合业务需求.

延时可以是自由的

。

任何延时的业务，都能跑在一张网上?

得益于底座能力和关键技术的持续突破，音视频服务已实现了从传统的点播、直播，到实时音视频的深化发展，未来，还将撬动传统行业中众多强实时、强互动场景的数字化升级.

其中，“时延”首当其冲成为最需攻克的难题之一.

以一张网，MediaUni能够支撑全域延时的业务:

从普通直播（HLS/FLV）、到基于WebRTC技术的超低延时直播RTS（约1s左右延迟）、再到实时音视频传输（如直播连麦、远程监考等场景），同时，更可支持对延迟要求极高的云渲染、实时远程控制等业务，实现所有业务真正跑在一张网上 .

。

延时“抢跑”，怎样实现?

从根本上看，网络的延迟源自两方面：物理的延迟与IP网络的不可靠.

为对抗物理的延迟，MediaUni基于全球3200+边缘下沉节点的就近分布，缩短了与用户之间的“最后一公里”，缩短数据的传输路径，以便更快感知传输网络质量的变化.

通过将渲染服务部署到靠近用户的节点，阿里云视频云在双11支持淘宝直播全真虚拟互动空间“未来城” ，实现超万路并发在线的虚拟直播，并在2023央视春晚，以低延时传输云渲染技术打造了首个元宇宙庙会，实现极致的超低延时体验.

淘宝3D虚拟电商空间“未来城” 。

在对抗IP网络的不可靠性上，MediaUni设计了实时感知系统，实现对节点的负载、链路的网络状况、以及业务关键信息的秒级感知，并基于感知数据，智能调整调度策略与路由策略，可以更好地分配物理资源，选择服务质量更高的物理链路.

同时，通过不断迭代的 QoS技术，在拥塞控制、FEC、多径传输等方向持续优化，对抗网络中的丢包、延迟与乱序，以满足更低的网络延时.

目前，科学界公认的人类极限反应速度为100毫秒，一般人的反应在0.2～0.3秒间，在百米赛跑中，枪响后的0.1秒内起跑会被视为“抢跑”，而MediaUni支撑实现的云渲染场景，已突破60ms以内的端到端交互延时，可谓音视频延时的“抢跑”.

。

延时vs成本，网络可以handle？

众所周知，在网络优化到一定程度以后，延时和传输成本会成为一对矛盾 .

例如，在带宽允许范围内，为对抗丢包，协议栈不惜代价进行重传或增加FEC，有效降低传输的延迟，但会因此付出更高的传输成本.

在行业普遍追求“快与更快”之际，低延时与低成本之间，是否有两全之法?

对此，MediaUni的精要在于将降低延时的手段与增加传输成本进行量化，再根据业务的场景提供ROI最高的综合方案，将每个bit的传输价值都发挥到极致 .

➤ 对于普通的娱乐直播，其互动方式为弹幕，可以采取5s左右的FLV直播；。

➤ 对于世界杯等赛事直播，可选用延迟1s左右的低延时直播；。

➤ 对于电商直播，通过AB测试发现，采用延时低于1s的互动直播，能够对GMV有一定的提升.

由此可见，能够针对不同业务场景进行网络的精细化运营，自由选择成本可控的业务延时，才是真正的“延时自由”.

多元融合，红利释放

。

业务复用，就是最大的技术普惠?

依托于强大的底层基础设施资源，和长期积累的音视频技术能力，相比于其他赛道玩家，云厂商在网络服务中具备规模优势.

此外，通过一张网络支持多元业务，“业务复用”本身将持续释放技术红利.

“红利”可以透过三点显现:

第一，业务混跑，驱动资源复用率的提高.

不同业务的错峰复用率会更高，从而带来更高的计算资源、网络资源复用率，如大部分会议、远程监控等业务都处于白天工作时间，这与互联网娱乐等“夜间经济”形成很好的错峰运行.

第二，技术复用，带来研发边际成本的降低.

在流媒体传输中，无论是音视频还是消息信令的传输，无论是直播还是实时通讯业务，都需要解决基于大量节点的路由问题、全局的快速信息感知问题、协议栈优化抗弱网问题 .

通过使用一张网络支持多元业务，可以复用这些基础技术，使得在同样的研发投入上，获取更优的技术指标.

第三，云产品的使用更便捷、更高效.

由于多业务的支撑，用户可以更方便地升级服务或者组合出新的场景化方案.

例如，通过阿里云控制台，用户只需“一键升级” ，就可以将延时5s左右的普通直播，切换成延时仅为1s的超低延时直播RTS，或者延时在400ms以内的互动直播.

从资源利用、研发成本，再到产品使用，一张多元融合的网络实现了最极致的红利释放.

。

支持的业务多了，会打架吗?

在驾驭“Uni”之下的多元业务时，MediaUni不可避免面临着许多技术挑战.

其中，最大的挑战，来自于多业务复用之后对工程能力的要求 .

一张网络支持多个业务以后，需要解决业务之间相互影响的问题，解决业务功能快速迭代的问题.

而MediaUni，通过良好的模块化设计来进行业务的隔离，减少不同业务的相互影响；同时，MediaUni构建了可编程能力，对于一些简单的业务需求，可以通过运行时可编程来解决，从而满足业务功能的快速迭代.

再者，多元业务复用的另一个技术挑战，来源于资源的复用，即不同业务对资源消耗的瓶颈可能不同，例如直播的瓶颈在于带宽，音视频通讯中复杂的QoS策略可能带来CPU的瓶颈，这时候需要更智能的调度系统来对不同业务进行编排.

未来的N种可能

。

一张传递“人类五感”的网。

在过去的几十年中，通过一代代技术人的努力，人类的视觉和听觉已经得到了较好的数字化呈现，实现了如今低延时、高可靠的音视频体验。然而，人类的感觉除了视觉与听觉之外，还包括嗅觉、味觉、触觉等.

可预见的是，沉浸式XR作为面向未来的交互形态，将需要同时对嗅觉、味觉、触觉等感官信息进行完全模拟和实时交互，从而实现用户体验扩展与人机互动，给用户创造身临其境、感同身受的逼真体验.

面向未来的流媒体传输网络，将实现更多维数据的高效传输.

未来，网络将支撑多种感觉（如味觉、嗅觉、触觉甚至情感等）的互动通信，人类多维感知的数据化、交互协作，也将在同一张网内进行 .

如同游戏手柄上的震动一般，刺激着一个复刻真实世界的真正元宇宙诞生.

。

三管齐下，优先布局。

为了支持未来多感官的音视频应用，流媒体传输网络将具备毫秒级的延时、与计算的紧密结合、元数据的传输能力三大关键特征，而MediaUni多元融合流媒体传输网络正在这三个方面化深度演进.

➢ 高质量的毫秒级延时。

在音视频全链路延时中，网络传输延时，是其中最困难、优化空间最大的部分.

MediaUni通过大量的节点覆盖和极具媒体特性感知的QoS优化，在云渲染场景已达60ms以内的端到端延时，并持续探索更低延时的传输能力，未来将在 20-100ms 之间寻求延时的极致与质量的平衡.

➢ 收放自如的算网。

网络天然就靠近用户，我们希望通过网络连接分布式资源，有效促进算力资源的按需“流动” ，弥补终端算力的不足.

利用全球广域的分布式计算能力，MediaUni正在实现计算与传输的统一调度，已将部分实时媒体处理的业务部署在传输网络上，并支持实时启动处理任务，在降低用户延时的同时，有效优化媒体的网络传输成本.

➢ 元数据传输。

元数据（Metadata），越来越成为音视频产品的一部分，结合元数据自定义音视频功能，可以更好满足场景的个性化需求。尤其在通向“人类五感”传输的网络世界里，多维感官的数据化、精准化，更需要元数据的支撑.

在音视频传输之外，MediaUni也支持更多维度的数据内容，例如消息信令的传输，进而可以扩展到更丰富的IM、多场景远程控制、元宇宙等业务。未来，随着多感官网络通道的真正打开，MediaUni将发挥更大的能量.

。

面向未来，MediaUni将如何实现「多元融合」下的新升级?

敬请期待7月28日。

LiveVideoStackCon2023上海站。

阿里云视频云专场。

阿里云智能高级技术专家带来演讲。

《MediaUni：面向未来的流媒体传输网络设计与实践》。

一同走进“多元融合”的网络世界！。

最后此篇关于多元融合：流媒体传输网络的全盘解法的文章就讲到这里了,如果你想了解更多关于多元融合：流媒体传输网络的全盘解法的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐：【NestJS系列】从NestCLI开始入门

文章推荐：详解nvim内建LSP体系与基于nvim-cmp的代码补全体系

文章推荐：基于JavaFX的扫雷游戏实现（五）——设置和自定义控件

带有地理位置的 Twitter4j 流媒体
我正在使用 Twitter4j 流 API。我正在使用地理定位约束来仅从特定区域获取推文。这是代码的那部分: twitterStream.addListener(listener);
WCF 分块/流媒体
我正在使用 WCF 并希望将大文件从客户端上传到服务器。我已经调查并决定遵循 http://msdn.microsoft.com/en-us/library/aa717050.aspx 中概述的分块方
PHP 流媒体 MP3
我和提问者的情况很相似: Can I serve MP3 files with PHP?基本上我试图保护 mp3 文件不被直接下载，因此用户必须首先通过 php 进行身份验证。这是我的代码: head
ffmpeg rtmp 流媒体
我连接了 Red5 oflaDemo 并且工作正常当我尝试使用 ffmpeg rtmp 流式传输 flv 文件时，我遇到了这个错误 root@zzz-OptiPlex-170L:~# ffmpeg
c# - DotNetZip 流媒体
我正在尝试压缩一堆文件并通过流使数据可用。我希望内存占用尽可能小。我的想法是实现一个 Stream，其中我有一堆 FileStream 对象作为数据成员。当我的 Stream 上的 Read 方法
iOS 流媒体 - 媒体文件分割器
只是想知道是否有人知道自动执行此操作和/或作为 50 mp4 视频的批处理的脚本或程序。我说的是使用 CLI mediafilesegmenter 命令将视频分段的过程，以便从 Amazon S3 流
python - PiCamera 流媒体
我有一个带有摄像头模块的 Raspberry Pi，我想将 PiCamera 的视频返回从 Python 流式传输到另一台运行 Python 服务器的计算机。我成功地使用 OpenCV 返回了视频(
FFMPEG 流媒体 Youtube 直播
我正在使用 ffmpeg sdk 在 youtube live 上流式传输实时视频 av_interleaved_write_frame(m_pAvFmtCntx, pkt); av_interlea
python - 没有关键字的 Twitter 流媒体
我正在尝试使用 Tweepy 流式传输 Twitter，我想知道是否可以在不提供关键字的情况下进行流式传输？因此，我将能够流式传输所有推文，而不仅仅是具有给定关键字的推文。我正在关注的代码可以在这里找
java - Hazelcast keySet 流媒体？
我是 Hazelcast 的新手，我正在尝试使用它来将数据存储在太大而无法容纳在单台计算机上的 map 中。我需要实现的过程之一是检查 map 中的每个值并对其执行某些操作 - 不是累积或聚合，而且
java - 网络摄像头、Java、流媒体。
我需要设置从多个网络摄像头到互联网(在浏览器中)的实时流传输，并且这些流应该仅对特定用户可见。 IE。用户 A 使用他或她的登录名/密码登录我的系统，转到视频流页面，并查看来自特定摄像头的流，而其他用
php - 无需持续轮询的实时 Twitter 流媒体
我在看 Twitter Streaming API获取实时提要。但我不希望它存储在我的服务器上。我只是希望它从服务器中提取，浏览器页面将从我的服务器的 twitter 提取 URL 检索数据。但我想避
java - 如何使用网络浏览器制作 P2P 流媒体？
我想创建一个P2P视频传输的应用程序。更详细地说，我需要以下内容: 用户可以通过点击应用程序中的按钮来打开网络摄像头。应用程序开始从网络摄像头拍摄图像并将其发送到特定位置(由端口和 IP 地址指定)
java - 使用 Tomcat 流媒体
我们有一个在 Tomcat 下运行的 Java Web 应用程序(应用程序 #1)。我们的要求:我们想为流媒体设置一个单独的服务器。我们的媒体文件已经转换为 flv(我们支持的唯一格式)...我们只
java - Red5 RTMP 流媒体
我是 RTMP 流媒体的新手，正在寻求帮助。足以让我开始。我已经在谷歌上搜索了大约 5-7 个小时，但仍然无法确定我的答案! Red5的文档有限，根本找不到任何支持!甚至与我类似的问题在 stack
hadoop - Oozie Hadoop 流媒体
我正在尝试编写一个简单的 map only hadoop streaming job 从 hdfs 读取数据并将其推送到 vertica。我写了几个shell脚本如下加载.sh hadoop
Android Camera2 RAW 流媒体
我是 Android 的新手，正在尝试: 从相机流式传输原始数据 (ImageFormat RAW_SENSOR) 处理原始数据交互显示处理结果原始数据捕获似乎只能在静态捕获模式下使用。这是正确的
ios - 从 iphone 流媒体
我需要将音频从麦克风流式传输到 http 服务器。这些录音设置是我需要的: NSDictionary *audioOutputSettings = [NSDictionary dictionaryW
xml - WCF:序列化？流媒体？
我需要了解 WCF 在发送消息时是如何工作的。 WCF 在发送之前是否序列化所有内容？我的另一个问题是使用 Streaming 有什么好处？更大的消息是否更好，比如说 1Mb 到 2Mb？我可以发送
youtube - 是否可以通过 API 创建新的环聊直播广播/流媒体？
是否可以直接从 API 初始化新的环聊直播广播/流式传输？我尝试将环聊直播用于我网站的直播系统，但我在 YouTube Live API 中没有看到任何允许通过环聊直播创建流的 API 方法(看起来需

我是一只小鸟

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

多元融合：流媒体传输网络的全盘解法

网络新基建，若隐若现

延时可以是自由的

多元融合，红利释放

未来的N种可能