通信世界网消息(CWW)近日,中国互联网协会在北京举办第六届“数字发展论坛”。论坛以“数据要素驱动高质量发展”为主题,汇聚国内200余位顶尖专家学者、行业精英和企业代表,深入交流与探讨数字发展趋势、机遇挑战、案例经验,国务院原副秘书长江小涓、中国工程院院士邬贺铨等专家参会。中国电信科技委主任邵广禄应邀在论坛中进行“AI和数据驱动,加速高质量发展”主旨演讲,分享了中国电信在人工智能和数据开放方面的实践和体会。
中国电信科技委主任、中国电信集团原总经理邵广禄
科技革命引发全要素生产率(TFP)快速提升的“蝴蝶效应”,蒸汽机、电力、IT互联网是历史上三次科技革命的“蝴蝶”,邵广禄指出,人工智能将成为新的“蝴蝶”推动新一轮科技革命和产业变革,AI和数据驱动正催生市值数量级增长的企业。在人工智能发展过程中,面临高性能与异构算力、高质量数据集等挑战。在实践中,中国电信总结算力方面需要攻克很多技术难点,譬如万卡集群线性加速、网络与调度能力、稳定性与故障恢复能力、并行资源调度能力等。中国电信在AI产业早布局,快发展,全面布局AI大模型,持续攻克万卡算力、息壤算力调度平台、数据要素平台、星辰系列大模型以及行业大模型等核心技术,并积极开源星辰大模型和开放中文数据集 TeleChat-PTD。
在人工智能由“模型中心”转向“数据中心”过程中,邵广禄指出,数据集是大模型构建的基石,在大模型开发中越来越重要。面对数据集构建中“量不足、质不高、用不畅”的三大挑战,在实践中,我们总结发现高质量的数据集的生产是个系统工程,会涉及六个方面。一是数据底座,包含云、网、隐私计算等;二是数据采集,当前网页数据比较成熟,但中文数据质量不高,特别需要生态合作开放数据集,如政府、事业单位及垂直领域的数据。三是数据预处理和分级分类。四是数据标注,需要产业化发展来提供更大范围更高质量的数据集。五是预训练的配比。六是高质量数据集的筛选。这六大方面对大模型的性能与准确度和智能水平具有决定性影响。
同行同业的数据集合就是行业的数据集,其价值远高于一个企业的数据价值,数据价值倍增。邵广禄提到,中国电信与温州医疗合作数据开放共享,大力提升医疗水平,如通过AI质控提高图像质量来避免患者重复检查;中国电信与中国联通通过5G共建共享合作实践,三年节省千亿数量级投资,每年节省百亿数量级运营成本。
邵广禄提出,通过开源开放、共享资源、共享收益,来减少企业重复建设和成本投入,促进数据集的共建共享,促进人工智能大模型的共建共享,通过AI和数据驱动,加速高质量发展。