开源大模型正在“杀死”闭源?( 二 )


除了逆天的Falcon,目前开源模型的参数基本都控制在7B-13B左右 。大模型厂商告诉光锥智能,“目前7B-13B亿参数量是一个较为合理的开源规模” 。这是基于多重因素所得出的参数量规模,如计算资源限制、内存限制、开源成本考量等 。
阿里云CTO周靖人基于云厂商的角度考虑道:“我们希望企业和开发者,在不同的场景可以根据自己的需求选择不一样规模的模型,来真正地应用在自己的开发环境 。我们提供更多可能性 。”
谈起为何开源大模型,周靖人强调了安全性,“我们不单单只是开源大模型,更重要的是要能够呈现出各项指标的表现效果,基于此 , 才能够让大家去评估其中的使用风险,更加有效地进行模型应用 。”
“重要的是,随着参数量的增加,模型效果提升会逐渐收敛 。当模型达到一定规模后 , 继续增加参数对效果提升的边际效益只会下降,70-130亿参数量一般已经接近收敛状态了 。”上述大模型厂商道 。
光锥智能发现,除了阿里云在视觉语言模型的细分领域发布了开源大模型外 , 其余公司皆提供的是通用能力的大模型 。这或许与大模型开源仍处于非常早期阶段有关系,但考虑到开源大模型也要落地到场景中,太过于同质化的通用大模型对企业来说也容易沦为“鸡肋” 。
如何避免开源大模型重蹈覆辙 , 体现出开源的价值,回顾Meta接连祭出的“大招”,一条开源的路径似乎逐渐显现——构建开源大模型生态 。

  • 2月份 , Meta凭借开源的Llama大模型回到生成式AI核心阵列;
  • 5月9日,开源了新的AI 模型ImageBind,连接文本、图像 / 视频、音频、3D 测量(深度)、温度数据(热)和运动数据六种模态;
  • 5个月后,Llama 2开源可商业,含70亿、130亿和700亿三种参数规模,其中700亿参数模型能力已接近GPT-3.5;
  • 8月25日,Meta推出一款帮助开发人员自动生成代码的开源模型——Code Llama,该代码生成模型基于其开源大语言模型Llama 2;
  • 8月25日,发布全新AI模型SeamlessM4T,与一般AI翻译只能从文本到文本不同,这款翻译器还能够“从语音到文本”或者反过来“从文本到语音”地直接完成翻译;
  • 9月1日,允许开源视觉模型DINOv2商业化,同时推出视觉评估模型FACET 。
可以看到,Meta开源的思路是在各个AI领域遍地开花,通过发布该领域最先进的AI开源模型,吸引更多开发者的关注和使用 , 壮大整个AI开源生态后来反哺业务、巩固行业地位,这就如同当年的英伟达推动GPU计算的开源策略 。
当年英伟达推动GPU计算的开源化 , 不仅吸引了大量研究人员在Caffe、TensorFlow等框架上进行创新,也为自身GPU产品积累了大量优化经验,这些经验后来也帮助英伟达设计出了更适合深度学习的新型GPU架构 。
另一方面,GPU计算的开源生态越来越繁荣后,也为其带来了巨大的市场空间,Nvidia DGX企业级的深度学习训练平台概念应运而生,为英伟达的显卡和平台销售创造了千亿级市场 。
国内阿里云也在通过建设完善生态的方式,试图帮助开发者更好的用好大模型,据周靖人介绍 , 目前阿里云不仅有自研开源大模型,也接入了超过100个开源模型,同时打造了开源社区魔搭,更好地服务开发者和企业用户,用好、调好大模型 。
开源闭源不矛盾,是手段而非目的据外媒爆料,Meta正在加紧研发全新的开源大模型,支持免费商用,能力对标GPT-4 , 参数量比Llama 2还要大上数倍,计划在2024年初开始训练 。
国外大模型格局看似是OpenAI“一超多强” , 实则是众多公司环伺,可以预见,开源大模型对闭源的围剿,越来越步步紧逼 。
开源大模型正在“杀死”闭源?

文章插图
国外一份研究报告称 , 大模型前期的发展创新由OpenAI、微软、谷歌等大公司闭源模型主导,但越到后期开源模型和社区的贡献值就越大 。
光锥智能也了解到,在国内开源大模型也成为了企业的“新卖点”,有企业甚至通过对外宣称已使用了“史上最强大模型Falcon 180B”,来展现其底层模型技术能力的强大,顶着“史上最强”的称号,又收割了“一波韭菜” 。
现阶段,开源大模型已经证明了几点重要的事实 。
首先,在非常大的数据集上进行训练,拥有几十亿个参数的大模型在性能上就可以与超大规模大模型相媲美;其次 , 只需要极少的预算、适量的数据以及低阶适应(Low-rank adaptation,LoRA)等技术就可以把小参数的大模型调到一个满意的效果 , 且将训练成本降低了上千倍 。开源大模型为现在的企业提供了闭源的替代方案,低成本成为最吸引他们的地方;最后,我们也看到开源大模型的发展速度也远快于封闭生态系统 。


推荐阅读