中国电信发布首个央企全自研视频生成大模型

责任编辑：王鹤迦 2024.12.05 08:30 来源：通信世界全媒体

通信世界网消息（CWW）12月3日，在中国电信“2024数字科技生态大会”期间，中国电信发布了首个央企全自研视频生成大模型。该视频生成大模型创新地打造了“VAST（Video As Storyboard from Text）二阶段视频生成技术”，通过文本描述精准勾勒出包含视频构图、主体目标位置及人物姿态等关键信息的“故事板”（Storyboard），进而生成对应的视频内容。

得益于 VAST 的创新能力，视频生成大模型可以保证单个或多个主体人物在各视频片段中的外观一致性，实现对复杂动作和交互式动作的精确控制，并让角色和目标物体的运动符合物理规律。基于此，通过语义、语音、文生图、文生视频等全栈大模型能力打通短剧及影视制作的各个环节，覆盖文字脚本撰写、分镜脚本绘制、视频拍摄及剪辑、配音及音效合成等全流程，实现降本增效。目前，TeleAI 视频生成大模型在权威视频生成评测榜单VBench中排名第一。

而中国电信视觉大模型现已升级至TeleSearch 2.0-基于知识的视图万物布控，实现动态知识挂载和行业事件认知，并驱动复杂逻辑理解。TeleSearch 2.0目标打破模态间的信息孤岛，支持上百个专业知识文档挂载，在理解文档内容的基础上，可根据复杂长语句精准检索图片和视频，从而完成跨模态复杂语义准确理解及超万种目标精准检索。它实现了对传统检索类目的指数级提升，以及对十亿级目标检索的秒级响应。

依托TeleSearch 2.0，中国电信构建了视觉大模型产用一体化平台，通过算法冷启动回流数据，摆脱了传统模型对大量数据的依赖，实现0训练数据直接推理，显著降低算法应用的准入门槛。同时，平台还支持小样本训练，仅需100个样本数据就能训练出高精度模型，实现模型生产的全自动化过程。目前，该平台已成功应用于多省应急项目，沉淀了20余个应急全流程感知场景，提升对灾害研判与应急响应的核心能力。

随着本次视频生成大模型和视觉大模型的发布，星辰大模型系列进一步完成了其全模态能力的构建。

通信世界网版权及免责声明:

1、凡本网注明“来源：通信世界全媒体”及标有原创的所有作品，版权均属于通信世界网。未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载我方内容的单位，也必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和本站来源。
2、凡本网注明“来源：XXX（非通信世界网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的，请在相关作品刊发之日起30日内进行。

发表评论请先登录

发表评论

评价

共0条评论

...

热点文章

...

技术文章

...

会议活动