开源让OpenAI们“丧失”护城河
来源:中国经营报
本报记者 秦枭 北京报道
近日,一篇来自 Google 内部研究人员的文件流出,声称“我们没有护城河,OpenAI 也没有”,开源 AI 会击败 Google 与 OpenAI,获得最终的胜利。这位研究人员认为,虽然表面看起来 OpenAI 和谷歌在 AI 大模型上你追我赶,但真正的赢家未必会从这两家中产生,因为第三方力量正在悄然崛起。
不仅如此,《中国经营报》记者统计发现,截至目前,国内已有40余家公司或者机构发布了大模型产品或公布了大模型计划。而在这些公司里,不乏百度、阿里巴巴、字节跳动、华为、科大讯飞等大型互联网科技企业。
而在这个大模型“百家争鸣”时代,已有人正在努力突破OpenAI们的护城河,超越ChatGPT。
Meta是“元凶”?
上述谷歌研究员在文件中提到的第三方力量正是开源模型,其训练速度更快,可定制性更强,更私密,而且比同类产品能力更出色。他们正在用100美元和130亿的参数做一些“谷歌1000万美元和540亿的参数难以企及”的事情,而且在短短几周内就能做到,而不是几个月。
而该研究员认为,酿成这场“祸端”的元凶就是Meta的LLaMa开源模型泄露。
2月24日,Meta推出大语言模型LLaMA,按参数量分为7B(B即billion,10亿)、13B、33B和65B四个版本。但仅在推出一周后,该模型就被上传到海外论坛,此后,这个种子链接被发布到开源社区GitHub,被广泛下载。
上述研究员称:“巨大的创新成果接连涌现出来,仅仅间隔了几天时间。现在,不到一个月的时间,就出现了指令调整、量化、质量改进、人类评价、多模态、RLHF等变体,许多都是相互关联的。”
不过, 在众多业内人士看来,现实远没有想象的那么悲观。AI算法专家黄颂向记者表示,一项新技术出现开源替代方案一般会改善整个生态。开源项目为对该技术有需求的用户提供了一种备选方案,但一般来讲,这种方案是经济和性能上的权衡。对于大模型来说,由于其对数据、平台算力、算法储备等方面的要求都极高,即使存在开源替代方案,单一的开发商也未必能够完全复刻头部商业公司的最优水准。但反过来讲,开源方案的存在,会令Google/OpenAI考虑差异化的研发路径,同时在商业化的过程当中做出一些有利于消费者的选择。
对此,深度研究院院长张孝荣认为,开源AI有可能成为谷歌和OpenAI的竞争者。开源AI是小模型,参数少,运行成本低,迭代速度快,优秀项目有可能在广泛参与下获得更好的性能,进而抢占更多市场份额。当然这是理论上的,如果两大巨头的大模型能够持续保持对开源AI在技术和性能上的压倒性优势,开源项目可能会获取一点份额,但未必会占到太多便宜。
在天使投资人、人工智能专家郭涛看来,Google和OpenAI拥有深厚的人工智能相关技术沉淀、海量的训练数据、领先的算法模型和丰富的应用生态体系等突出优势,相关产品的历史版本也在逐步进行开源。目前来看,很长一段内开源AI项目对Google和OpenAI不会构成任何威胁,未来AI大模型市场的竞争将逐步从技术竞争转向生态系统的竞争。
国内虎视眈眈
即便Google和OpenAI不用过渡担心开源AI 的影响,但不可否认的是这场围绕大型语言模型展开的“军备”竞赛正愈演愈烈。除了国外微软、谷歌两大豪门针锋相对之外,国内百度、阿里、京东等互联网厂商火速跟进。短短几个月时间内,国内有超过40家科技公司入局,彻底拉开了国内人工智能战场的序幕。
5月6日,科大讯飞发布了讯飞星火认知大模型,现场实测大模型七大核心能力,并发布了汽车、教育、办公、数字员工四大行业应用成果。在现场,科大讯飞董事长刘庆峰表示,“当前,在文本生成、知识问答、数学能力三大能力上,讯飞星火认知大模型已超ChatGPT。”
与此同时,刘庆峰还给出了讯飞星火的迭代时间表及每阶段目标:第一阶段,在6月9日,突破开放性问答,如实时问答;多轮对话能力再次升级;数学能力再上台阶。第二阶段,在8月15日,突破代码能力;多模态交互能力正式开放给客户。第三阶段:10月24日,在通用大模型领域对标ChatGPT,其中中文能力超越后者,英文能力与后者相当。
不仅是刘庆峰,百度CEO李彦宏曾表示,百度文心一言与ChatGPT的差距大约是两个月。随后李彦宏表示,重点是这两个月的差距我们要用多长时间才能赶上,也许很快,也许永远也赶不上。这也在业内引起了争议。
腾讯集团顾问王小川认为,ChatGPT比国内领先三年时间,用一年时间追上GPT-3.5可能是有机会的,但目前ChatGPT已经达到GPT-4的级别,GPT-5也在训练过程中了,因此要追上ChatGPT至少需要三年时间。
张孝荣也认为,国产大模型与国外技术水平差距至少三年。GPT已经实现4.0版本正在向5.0发展,而国内大模型好比从GPT2.0起步训练,尚未达到3.0版本的水平,超越一说是不成立的。如果实现了超越,那么可以让该公司需要进一步披露自身拥有的算法、训练机制、数据规模和来源,以及解释如何在短短几个月内取得了超越ChatGPT几年的技术积累效果。
黄颂认为,声称在部分能力或者某些方面上超越ChatGPT,这样的说法没有太大意义。可信的应该是在更全面无偏的第三方数据基准和评估标准上得到结论。但目前还没有公认的这样基准,现在还是自说自话的局面。
而三六零创始人周鸿祎则更加直接地表示:“上来就说能超越,那才叫吹牛。”他认为,针对ChatGPT的技术开始肯定是采取的是模仿与“抄袭”,但随着市场化、场景化、以及用户拓宽,在未来可能实现后来居上。
立足本土
“国内互联网公司都该去做大模型,这是因为无法笃定其中某一家就能做好。”周鸿祎认为。而随着众多企业的纷纷涌入,大模型赛道迎来“百家争鸣”时代,市场竞争将会空前加剧。然而,当大模型不再稀缺,接下来就是质的竞争。
对此,郭涛建议,对国产大模型企业来说,应立足本土市场,发挥对中文的语言特点和文化背景的深入理解和适应的优势,积极探索全新的商业模式和发展路径,深耕垂直行业或细分场景,快速实现商业化落地应用,持续提高企业竞争力。积极构建跨行业、跨领域的商业生态系统,政府有关部门也要应积极引导企业共同打造大模型,构建开源框架和通用大模型的应用生态。
而在张孝荣看来,国产大模型项目数量虽多但体质较差,除了少数几个有底层算法设计之外,大部分跟风而上的项目只是基于对国外开源项目的改造,甚至仅是简单的接入国外项目API的套壳做应用开发,由于技术成熟度有限和自身实力差距,很多项目不会持续太久就会陷入困境,只会有少量几个项目存留下来继续探索。
部分学者认为,各个企业也不要只关注把模型做大,还要思考怎么样把大模型做小。
中国科学院自动化研究所副所长曾大军表示,大模型就像一个人类大脑的雏形,通过喂养各种数据,实现各种智能能力,大模型正在重新定义人和计算机的互动关系,有望成为计算机和人今后主要的接口。他着重强调了大模型小型化和领域化的发展。“现有大模型的算力和能耗挑战会促使很多工作向领域专用化、轻量化的小模型或大小模型混搭的方向发展,特别是金融、教育、医疗、交通等领域,大量的工作在试图降低大模型的成本。”
厦门大学南强特聘教授、人工智能研究院负责人纪荣嵘也认为,大模型最终要用到车载、机载、电载等应用上,在无人机等设备中,硬件大一些,成本就以倍数上涨,多一点计算空间就会增加巨额的硬件成本,所以“各个企业也不要只关注将模型做大,还要思考怎么样把大模型做小”。
我来说两句