中移智库发布新型视频语义编码技术白皮书(2024年)

责任编辑:包建羽 2024.12.10 15:10 来源:中移智库

随着5G和人工智能技术的发展,视频编码技术迎来了新的机遇。同时,新型视频内容(VR视频、全景视频、自由视点视频等)相继涌现,给数据的存储和传输带来了全新挑战。新机遇带来新挑战,从而引发新型技术需求。在此背景下,视频语义编码技术将基于视频内容和语义特征进行编码,同时追求信号保真度、感知自然性和语义质量,有望突破传统视频编码方法的性能瓶颈,成为助推视频产业高质量发展的新动能。本白皮书旨在提出视频语义编码技术架构,介绍了视频语义编码技术背景、典型应用场景和相关技术方案,总结梳理了标准化进展,并对未来技术发展趋势进行展望。

image.png

视频编码技术总体发展态势

近年来,随着5G、5G-A和人工智能技术的发展,多媒体通信呈现巨大革新,进而催生了大量以视频为主要媒介的应用场景,比如短视频、视频直播、视频通话、视频会议等。视频编解码技术作为视频产业的基础底层技术,无疑将成为未来产业中的重要一环。尽管视频编解码技术每十年可提升约50%的压缩率,但已然无法跟上当下视频信息量迅速膨胀的步伐。海量的新型视频数据和创新应用场景的迸发涌现,促使视频编码技术不断迭代并呈现多元化发展趋势。因此,亟需发展更为高效智能的视频编码技术,来迎接全新的大视频时代。

在此背景下,视频语义编码技术应运而生。视频语义编码,即基于视频内容和语义特征进行编码,同时追求信号保真度、感知自然性和语义质量,有望突破传统视频编码方法的性能瓶颈,为视频产业注入新的活力,进一步提升产业势能,成为助推视频产业高质量发展的新动能。

视频编码技术发展概述

视频编码技术历经几十年的发展,国内外视频编码标准更新迭代,基于块的混合编码框架成为主流的基本架构。目前,国内外基于混合编码框架制定的视频编码标准包括:MPEG-1/2/4, H.261/2/3, H.264/AVC, AVS,H.265/HEVC和H.266/VVC等。

image.png

图1 国内外视频编码标准发展历程

新一代的视频编码标准如VVC、AVS3 和AV1在编码框架方面虽然仍属于基于预测/变换和熵编码的混合编码框架,但其诸多编码工具和环节与前代视频编码标准相比,具备更细粒度的处理能力和自适应性,带来了显著的编码性能提升。然而,编解码的复杂度也显著增加,这对实时编码提出了巨大的挑战,同时压缩效率的进一步提升遭遇瓶颈。

而人工智能的兴起,尤其是深度学习的发展,促使研究人员开始尝试在图像视频编码领域引入神经网络,以期利用其数据驱动和对机器视觉友好的特质,实现更智能化、更高效的图像视频编码,从而突破传统视频编码方法的瓶颈。目前,基于神经网络的视频编码更多的是探索网络模型的组合堆积和复杂模块的引入,未深入分析设计网络模型特性、结构特性等,如何设计并提出高效的端到端视频编码技术和解码方法是亟需解决的问题。同时,如何实现不同模型的码流互通,降低解码端模型推理的硬件要求,实现移动端的高效部署也是该技术落地的关键。

视频语义编码传输关键技术

视频语义编码是一种全新的视频编码引擎,它衍生于传统视频编码框架和神经网络视频编码框架,通过高效利用语义信息,从而一步提高两种路线的编码效率。

目前,主要的技术方案可分为两类:(1)利用语义信息作为先验信息,优化现有的混合编码框架;(2)根据人眼视觉任务和机器视觉任务的需求,自适应地选择或生成语义信息,即一种通用紧凑且易于压缩的特征表达,进而优化其编码性能。

纵观两种技术路线,语义编码技术乃多方案竞相争鸣,亮点纷呈,技术框架涵盖多种技术路线和方案,主要包含视觉感知编码、生成式编码、跨模态编码、面向机器的视频编码等关键技术,同时,对于编码后的视频数据有其配套的封装传输技术。

image.png

图2 视频语义编码传输关键技术簇

image.png

图3 视频语义编码技术应用及产业链示意图

视频语义编码技术可直接集成应用于现有编码框架,其技术应用及产业链示意图见图3。目前,较为成熟的解决方案是以AI作为工具辅助编码,或在编码前进行分析预处理,比如画质增强,超分插帧,特征提取等;或在编码环节提供语义先验信息以优化编码性能,比如基于恰可察觉失真和感兴趣区域的码率控制优化,编码参数自适应选择等。未来,随着AI编码技术的不断成熟,端到端的视频语义编码架构将是未来演进方向。

标准化进展及建议

为了实现不同公司制造的设备和提供的服务之间的互操作性,在过去几十年,国内外标准工作组研究了一系列视频编码标准,代表性的活动见表1和图4。

image.png

表1 国内外视频编码技术标准工作组一览

image.png

图4 国内外视频编解码标准体系

回顾视频语义编码技术框架,视觉感知编码技术涉及对应了传统视频编码、VR视频编码、多视点视频编码、AI视频编码等相关标准;生成式编码技术和跨模态编码技术目前属于前沿探索阶段,未来有望进入AI视频编码标准;针对机器视觉,国内外标准工作组开展了一系列面向机器的视频编码标准的研究制定。中国移动积极参与了ISO/IEC、ITU-T、AVS等相关标准的研制。

AI视频编码

近年来,各标准工作组开始探索基于深度学习的编码标准化,例如,IEEE 1857.11、JPEG AI、MPAI EVC/EEV、AVS ModAI、AVS4等。

VR视频编码

IEEE 1857.9工作组致力于推动用于压缩、解压缩和重建沉浸式视觉内容的高效编码工具的标准化。VVC/H.266标准已经能够支持双目、多目、360度等沉浸式内容编码。MPEG MIV标准于2021年10月进入国际标准最终草案投票阶段,MIV标准的目标是为沉浸式六自由度立体视觉场景提供高效编码。国内AVS工作组于2016年启动了VR编码标准的制定。

多视点视频编码

国际标准组织MPEG于2001年成立3D视频研究工作组,着手进行多视点视频、多视点加深度和自由视点视频的技术研究和标准化制定。2012年,ISO/IEC与ITU-T成立3D视频编码联合专家组(JCT-3V),制定HEVC 和其他视频编码标准的多视图和3D视频编码扩展。在AVS第89次会议上,中国移动牵头提出《AVS3的多视角视频及3D立体视频档次需求建议》并通过。同时,在大会上成立3D编码专题讨论组,负责AVS3多视角和立体视频的标准制定工作。

面向机器的视频编码

在机器视觉任务中,为高效压缩图像与视频,国内外相关标准组织做出了一些探索和尝试,并形成了一系列标准,主要包括视觉搜索紧凑描述子标准(CDVS)、视频分析紧凑描述子标准(CDVA),正在探索的面向机器的视频编码标准(VCM)和面向机器智能的数据编码标准(DCM)。

标准化进展及建议

在随着大算力,大数据,大模型的发展,AI技术迎来新一轮革新,无疑给视觉数据编码技术带来了全新的发展机遇,促使其不断向深度和广度方向发展。

视频语义编码技术将延伸至6DoF视频,包括但不限于体积视频、动态点云/网格等。

预训练多模态大模型有望成为推动视频语义编码效率进一步提升的新引擎。

视频语义编码技术将成为AIGC的基础核心技术,降低海量AI生成内容的传输存储压力。

视觉内容的高效表征有望和数据压缩技术高效融合,实现“上万倍”压缩。

面向差异化任务需求,异构计算、云-边端计算架构有望成为视频语义编码实现的主流方案。

视频语义编码技术作为视频业务的底层关键技术,将促进视频传输技术的优化升级,两者相辅相成,进一步提升视频体验。

视频语义编码技术将推动视频业务的创新发展。同时,视频语义编码技术的标准化研究,将进一步促进新兴视频业务的大规模应用落地。

[参考文献]

[1] Ma S, Zhang X, Jia C, et al. Image and video compression with neural networks: A review[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 30(6): 1683-1698.

[2] 5G 高新视频—VR 视频技术白皮书, 国家广播电视总局科技司, 2020.

通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容