中国电信邵广禄:通过开源开放促进人工智能大模型共建共享

责任编辑:王鹤迦 2024.11.13 14:43 来源:通信世界全媒体

通信世界网消息(CWW)近日,中国互联网协会在北京举办第六届“数字发展论坛”。论坛以“数据要素驱动高质量发展”为主题,汇聚国内200余位顶尖专家学者、行业精英和企业代表,深入交流与探讨数字发展趋势、机遇挑战、案例经验,国务院原副秘书长江小涓、中国工程院院士邬贺铨等专家参会。中国电信科技委主任邵广禄应邀在论坛中进行“AI和数据驱动,加速高质量发展”主旨演讲,分享了中国电信在人工智能和数据开放方面的实践和体会。

image.png

中国电信科技委主任、中国电信集团原总经理邵广禄

科技革命引发全要素生产率(TFP)快速提升的“蝴蝶效应”,蒸汽机、电力、IT互联网是历史上三次科技革命的“蝴蝶”,邵广禄指出,人工智能将成为新的“蝴蝶”推动新一轮科技革命和产业变革,AI和数据驱动正催生市值数量级增长的企业。在人工智能发展过程中,面临高性能与异构算力、高质量数据集等挑战。在实践中,中国电信总结算力方面需要攻克很多技术难点,譬如万卡集群线性加速、网络与调度能力、稳定性与故障恢复能力、并行资源调度能力等。中国电信在AI产业早布局,快发展,全面布局AI大模型,持续攻克万卡算力、息壤算力调度平台、数据要素平台、星辰系列大模型以及行业大模型等核心技术,并积极开源星辰大模型和开放中文数据集 TeleChat-PTD。

在人工智能由“模型中心”转向“数据中心”过程中,邵广禄指出,数据集是大模型构建的基石,在大模型开发中越来越重要。面对数据集构建中“量不足、质不高、用不畅”的三大挑战,在实践中,我们总结发现高质量的数据集的生产是个系统工程,会涉及六个方面。一是数据底座,包含云、网、隐私计算等;二是数据采集,当前网页数据比较成熟,但中文数据质量不高,特别需要生态合作开放数据集,如政府、事业单位及垂直领域的数据。三是数据预处理和分级分类。四是数据标注,需要产业化发展来提供更大范围更高质量的数据集。五是预训练的配比。六是高质量数据集的筛选。这六大方面对大模型的性能与准确度和智能水平具有决定性影响。

同行同业的数据集合就是行业的数据集,其价值远高于一个企业的数据价值,数据价值倍增。邵广禄提到,中国电信与温州医疗合作数据开放共享,大力提升医疗水平,如通过AI质控提高图像质量来避免患者重复检查;中国电信与中国联通通过5G共建共享合作实践,三年节省千亿数量级投资,每年节省百亿数量级运营成本。

邵广禄提出,通过开源开放、共享资源、共享收益,来减少企业重复建设和成本投入,促进数据集的共建共享,促进人工智能大模型的共建共享,通过AI和数据驱动,加速高质量发展。


通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容