从DeepSeek看,开源AI发展及商业化路径

责任编辑:王鹤迦 2025.03.07 07:58 来源:天翼智库

通信世界网消息(CWW)DeepSeek继2025年1月20日发布DeepSeek-R1引发业内对开源AI的广泛关注和热烈讨论后,又将2月最后一周作为开源周“连放大招”,公开V3/R1的核心代码和系统架构等重磅内容。在全球开发者惊叹并对DeepSeek下一代模型充满期待的同时,业界也出现了对开源AI如何保持竞争力、如何推进商业化等的担忧或质疑。本文尝试通过理清与分析开源AI的定义、意义和商业模式等,解答上述问题。

开源AI定义与DeepSeek开放程度

AI模型有别于传统软件,其不仅包括代码,还涉及数据、参数和权重等,因此开源AI的定义并不像开源软件般清晰,目前尚未形成统一认知。不过,LF AI&DATA 基金会1和开源倡议组织(OSI)2024年陆续提出了模型开放性框架(MOF)和开源AI定义(OSAID)1.0,为DeepSeek等是否属于开源AI提供参考。

1.依据MOF,DeepSeek-V3/R1尚未达到最开放层级

模型开放性框架(MOF)由LF AI&DATA 基金会于2024年4月发布,用于客观评估和分类机器学习模型的完整性和开放性。

MOF定义了Ⅲ、Ⅱ、Ⅰ等三个开放范围逐步扩展的层级。Ⅲ级-开放模型要求开放模型架构、参数、技术报告等组件,帮助用户使用、分析和构建模型,但限制了用户对开发过程的深入了解。Ⅱ级-开放工具要求在Ⅲ级的基础上,开放训练和推理代码等,帮助开发者更深入地理解模型工作原理,以及将模型部署至不同的环境和应用。Ⅰ级-开放科学要求在Ⅱ级的基础上,开放数据集和研究论文等,确保研究者能够完全访问和复现AI模型的各个方面。目前,智源Aquila-VL-2B模型已通过MOF评估I级。

DeepSeek-V3/R1开放了模型参数、技术报告、部分训练和推理代码等,大致处于MOF的Ⅱ级,能够良好地满足使用者和开发者的需求,但距离“最开放”仍有空间。

表1 MOF分级与DeepSeek-V3/R1开放情况

3d173efdae54650be2d67f38f6a3d724.png

注:根据公开信息整理,供参考。

2. 依据OSAID 1.0,DeepSeek-V3/R1尚不属于开源AI

开源AI定义(OSAID)1.0是由OSI于2024年10月提出的全球首个开源AI标准,要求开源AI 必须提供完整的源代码、模型参数信息和训练数据信息等三个关键组成部分。其中,对于训练数据信息,不要求提供数据集本身,但要求提供数据来源和出处、数据处理方法、如何获取或许可这些数据以及确保具备相关技能的人能够使用相同或类似的数据重建出实质等效的系统。

同时,OSAID 1.0要求开源 AI 必须保证用户拥有“可以出于任何目的使用该 AI 模型、无需征得许可即可修改模型、可以自由地研究系统的工作原理、可以自由分享和传播”等四项权利。

根据上述定义,对于三个关键组成部分,DeepSeek-V3/R1已开放模型参数信息和核心代码,基本未开放训练数据信息,因此尚不能称为开源AI。对于用户权利,DeepSeek-R1代码和模型开源采用“非常宽松”的MIT协议,允许用户自由使用、修改、复制、分发和进行商业活动,满足OSAID 1.0要求;DeepSeek-V3代码开源采用MIT协议,模型开源采用基于OpenRAIL2自建的DeepSeek许可证,从负责任的角度会对用户行为进行一定约束,或与“出于任何目的使用该 AI 模型”相悖。

此外,Llama、Stable Diffusion、Mistral等以开源宣传自己的模型亦因未公开训练数据信息、限制商业用途等被OSAID 1.0排除在开源AI之外。

开源AI意义与DeepSeek竞争力

尽管依据开源AI定义,DeepSeek不能算做完全意义上的开源,但从开发者与企业的实际反应来看,其已充分诠释“以共享促创新”的开源精神,仍可视为现阶段开源AI的代表。

1.开源是“做大蛋糕”的重要手段

高透明度且易于获取的开源软件有助于降低企业认知、采购、使用和管理IT技术的成本。根据交易成本理论,企业更倾向于选择交易成本低的技术,为通过开源推进技术普及奠定了经济学基础。DeepSeek迅速渗入金融、医疗、能源等各个行业的盛况,则充分证实了这项理论。因此,开源可带动市场整体规模扩张,并让贡献者有机会分得更大蛋糕。

2.生态和信任是DeepSeek等开源AI的竞争力

DeepSeek开放模型参数与技术报告等后掀起全球复现热潮,如伯克利团队30美元成本复刻R1-Zero、港科大团队使用8K样本在7B模型上复刻R1/R1-Zero等,并均取得不俗效果,说明AI模型即使仅开放模型,已存在被迅速追平的可能,进一步开放代码和数据等将削弱更多先发优势。

不过,开源从生态和信任等方面为贡献者带来新的竞争优势。一是可借助外部力量加速迭代与创新;二是有助于品牌传播和形象提升,进而吸引更多用户和人才,如微软2014年起开源开发环境.NET“笼络”开发者,为其云业务推广创造有利条件;三是高透明度更易赢得市场信任,特别是AI大模型作为以数据驱动的复杂黑盒模型,安全问题是客户主要顾虑之一,通过开源帮助客户理解模型内部机制可在一定程度上缓解担忧。

开源AI商业模式

开源AI的商业模式与同样推崇共享的互联网类似,即流量变现。

1.产品层面的“流量变现”:以广告和增值服务为主

广告是开源项目获取收入最直接的方式。知名开源前端框架Vue在官网、说明文档和社交媒体账号中为各级赞助商提供广告位,赞助商级别越高,广告位越醒目。如铂金赞助商(2000美元/月)可获Vue官网首页和侧边栏、以及发布于GitHub的说明文档中的明显logo展示位;金牌赞助商(500美元/月)可获Vue官网首页和GitHub说明文档中的大号logo展示位。

增值服务为开源项目提供更为丰富的变现方法。一是“+技术服务”。例如,红帽赞助Linux操作系统开源项目fedora,并在fedora经广泛验证后选取适合企业与商业用户的部分附加技术支持形成商业版RHEL;谷歌开源容器管理工具Kubernetes后推出Kubernetes托管服务GKE;HuggingFace作为开源AI平台,在免费提供模型和数据等的同时,也提供数据托管、API调用和模型定制等收费服务。二是“+付费组件”。例如,谷歌开源Android,但将Android与收取授权费用的谷歌移动服务(GMS)绑定。

目前,DeepSeek除了开源V3/R1等一系列模型,对V3/R1也按token消耗量收取API调用费,即已通过“+技术服务”变现,未来可能拓展出广告、会员、高级功能等更多收费方式。

2. 公司层面的“流量变现”:提高估值

随AI模型逐渐成为新一代基础软件,其公司的估值方式可借鉴互联网平台公司,将用户规模、用户增速和获客成本等作为核心依据。开源可有效促进用户规模增长及获客成本降低,进而提振估值。Databricks通过开源大数据处理引擎Spark迅速打响品牌,之后又陆续贡献Delta Lake和MLflow等著名开源项目,2024年以620亿美元的估值成为全球估值最高的非上市大数据公司;DeepSeek-R1开源并出圈后,DeepSeek公司估值中位数已达数百亿美元,最高估值甚至达到1500亿美元。

对运营商的建议

面向开源AI新趋势,建议运营商主动拥抱,加强企业战新规划与开源的衔接,以重点专项为牵引,深化对开源AI的持续跟踪,强化工具集研发、软硬协同优化等自主创新,细化标杆企业案例研究,如谷歌生来具备开源基因并持续贡献、红帽依托开源构筑商业闭环成长壮大、微软及时调整“与开源为敌”的态度成功转型等,探索与推进适合自身业务与能力的开源AI商业模式。

通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容