移动端自由视角直播时代已来!火山引擎LiveGS技术震撼SIGGRAPH,引爆沉浸式交互革命

mysmile 11 0
移动端自由视角直播时代已来!火山引擎LiveGS技术震撼SIGGRAPH,引爆沉浸式交互革命

顶会亮相:LiveGS如何攻克移动端实时自由视角的终极难题?

想象一下,在手机上就能自由旋转、缩放视角,像操控游戏角色一样观看直播——这不是未来科技,而是正在发生的现实!火山引擎多媒体实验室的最新研究成果LiveGS,已成功入选计算机图形学顶会SIGGRAPH Emerging Technologies,并于2025年8月在温哥华全球首发。这项技术首次打通移动端实时自由视角视频直播全链路,在极致画质、高效计算与低成本传输间找到了完美平衡点,为互动娱乐、元宇宙等领域铺就了全新的技术基石。

移动端自由视角直播时代已来!火山引擎LiveGS技术震撼SIGGRAPH,引爆沉浸式交互革命

图1 LiveGS技术论文首页

破局时刻:从实验室构想走向千万级移动设备的实时自由视角革命

自由视角视频允许用户从任意角度探索场景,是通往沉浸式体验的核心钥匙。但高计算负载与巨额带宽需求,长期桎梏着其在移动端的应用。火山引擎多媒体实验室凭借LiveGS系统,通过三大颠覆性创新,实现了端到端实时自由视角直播的工程化落地:

三大核心技术突破,树立移动端FVV新标杆

1. 实时3D高斯建模:毫秒级重建人体,告别漫长离线等待

传统3D高斯泼溅技术需耗时数十分钟优化场景,完全无法适配直播节奏。LiveGS创新采用前馈神经网络,结合Sobel特征自适应策略,对人体不同区域实施差异化建模——平坦肤色区用粗粒度,细节丰富的头发、衣物则用细粒度处理。此举在保障渲染精度的同时,将高斯数量锐减70%,实现无需预训练的实时3D重建。实测在A10显卡上运行帧率超30 FPS,端到端延迟压至1秒内,真正满足直播级实时性。

移动端自由视角直播时代已来!火山引擎LiveGS技术震撼SIGGRAPH,引爆沉浸式交互革命

图2 LiveGS前馈神经网络架构解析

2. 智能压缩传输:500倍极致压缩,画质损失不足3dB

LiveGS将3D高斯属性映射至2D视频平面,采用YUV 4:2:0格式与可变位打包技术进行量化编码。通过基于渲染重要性的比特率分配策略,优先编码深度与RGB关键区域,在实现高达500倍压缩的同时,PSNR画质损失严格控制在3dB以内。该方案完全兼容现有视频传输链路,带宽需求低于20Mbps,让自由视角直播飞入寻常百姓家。

移动端自由视角直播时代已来!火山引擎LiveGS技术震撼SIGGRAPH,引爆沉浸式交互革命

图3 高效编码传输流程示意图

3. 移动端渲染优化:区域化高斯裁剪,算力消耗直降70%

针对移动端算力瓶颈,LiveGS推出基于掩码的高斯选择策略:在面部、手部等高细节区域保留全部像素高斯,躯干等低频区域仅保留1/3像素,使渲染高斯数量减少70%。结合混合渲染技术,在iPhone 15等主流设备上实现30FPS流畅视角交互,推动自由视角从PC专属走向全民移动时代。

抖音“裸眼3D”直播:单目视频实时转化自由视角

实验室更研发出一项创新技术,能够通过普通单目视频实时生成自由视角流,并已与抖音团队成功落地“裸眼3D”直播。云端AI大模型将2D直播流实时处理为携带深度信息的3D流,经编码、转码后通过标准直播链路分发。用户在移动端可根据深度信息实时重建3D场景,仅需晃动手机,即可从多角度沉浸式观看内容,实现真正的“裸眼3D”体验。

从技术突破到场景赋能:开启全行业沉浸式交互新纪元

LiveGS不仅是一次算法革新,更构建了“实时采集-云端重建-极速传输-移动端渲染”的完整闭环解决方案。其应用场景极具想象力:

体育赛事直播:自由切换视角,360°解析运动员每个精彩瞬间——篮球扣篮的空中姿态、足球射门的腿部发力、赛车过弯的轮胎轨迹,尽在指尖掌控;

虚拟偶像演出:观众可自定义镜头焦点,环绕式观赏偶像表演,打造专属沉浸式互动体验;

远程会议与教育:动态捕捉演讲者姿态与手势细节,结合自由视角切换,大幅提升跨空间沟通的临场感与信息传递效率;

电商直播:360°无死角查看商品细节——服饰的立体剪裁、珠宝的璀璨纹理、家电的工艺设计,沉浸式交互驱动购物决策。

移动端自由视角直播时代已来!火山引擎LiveGS技术震撼SIGGRAPH,引爆沉浸式交互革命

图4 LiveGS端到端直播系统架构全景

即刻行动,拥抱下一代视觉交互!

LiveGS技术已准备就绪,即将重塑直播、娱乐、社交乃至电商的体验边界。你是否渴望将自由视角融入你的产品?点击了解更多,共同定义沉浸式未来!

附录

火山引擎多媒体实验室:前沿探索与技术落地并行

火山引擎多媒体实验室是字节跳动旗下的核心研究团队,深耕多媒体领域前沿技术,积极参与国际标准制定。其创新算法与解决方案已广泛应用于抖音、西瓜视频等产品,并通过火山引擎赋能企业客户。实验室成果频获国际顶会与顶级期刊认可,并屡次斩获行业创新大奖。

关于火山引擎

火山引擎作为字节跳动旗下的云与AI服务平台,将字节跳动增长方法论、尖端技术及工具向企业开放,助力企业构建体验创新、数据驱动与敏捷迭代能力,加速AI转型,激活增长潜能。

欢迎加入我们,或探讨项目合作:

jiaoshaohui@bytedance.com

扩展阅读:多媒体技术常见问答

日常生活中,多媒体技术有哪些具体应用?

多媒体技术已无处不在!从手机短视频、在线直播、互动教学到虚拟现实游戏,它融合文字、图像、音频、视频实现沉浸式交互,彻底改变了信息获取与娱乐方式。

多媒体技术的核心优势是什么?

多媒体技术能同步处理多种信息形式(如音视频、动画、文本),支持实时互动操作,并通过网络高效传输,极大丰富了内容表达与用户体验。

如何简单理解多媒体技术?

简而言之,多媒体技术就是将文字、图片、声音、视频等元素融合处理,实现人机动态交互。其核心在于多内容并行处理与高效集成。

多媒体技术涵盖哪些关键领域?

关键技术包括:音频技术(采样、压缩、语音识别)、视频技术(数字化与处理)、图像技术(处理与生成),以及网络传输与实时渲染等。

网络多媒体属于什么专业方向?

通常归属于多媒体设计与制作或数字媒体技术专业,侧重艺术修养与计算机技能结合,培养跨媒体内容创作与技术实现能力。

互联网与多媒体有何关联?

互联网是全球性网络基础设施,多媒体则是内容呈现与交互方式。二者结合,催生了流媒体、云游戏、实时通信等丰富应用。

网络技术应用与多媒体技术应用,哪个更易入门?

多媒体技术应用涉及面广,基础技能易于接触;网络技术需一定编程与协议知识。根据兴趣,多媒体更适合创意表达,网络则偏重逻辑构建。

计算机相关技术如何选择方向?

软件技术专注编程开发;计算机网络聚焦通信与网站构建;多媒体技术融合艺术与交互。选择需结合个人兴趣与职业规划。

多媒体技术对计算机网络的核心要求?

核心在于高效、稳定的数据传输与低延迟交互,以支持音视频流、实时渲染等资源密集型应用,确保用户体验流畅。

计算机多媒体技术与计算机网络技术区别何在?

多媒体技术侧重内容处理、呈现与人机交互;网络技术专注设备连接、通信协议与数据传输。前者重体验,后者重连接。