阿里达摩院plug中文预训练模型预训练模型狂飙

天天见闻 天天见闻 2023-04-11 创业 阅读: 123
摘要: 大厂和大佬all in大模型的计划引起了赛道的狂热。二是国内存在商业化落地和时机的不确定性。几家机构和猎云网表示,目前仍在继续学习中。国外超大规模预训练模式始于2018年谷歌提出BERT大规模预训练语言模型,OpenAI推出GPT-3超大规模语言训练模式。谷歌的Switch Transformer模型有史以来首次为1.6万亿种语言模型提供了参数。

阿里达摩院plug中文预训练模型预训练模型狂飙

  太贵,让VC更理性了。

  文丨猎云精选 ID:lieyunjingxuan

  作者丨孙媛

  2023年,大模型狂飙;但一级市场却略显十动然拒。

  一边,大厂跟大佬all in大模型的规划掀起赛道的狂热,有VC抢做一个吃螃蟹的人,数亿元融资成大模型投早标配。

  譬如,启明携手经纬,数亿元天使轮投向周伯文创办的衔远科技;创新工场孵化的AI 2.0 大模型澜舟科技,也续上一笔数亿元Pre-A轮,斯道资本和创新工场持续加码。

  但到了另一边,却仿佛现实照进理想,大模型自研所需的“钞能力”让不少VC望而生畏。

  一次运算450万美元(约合3000万元)的开销,以及月薪2万至10万/人的重金求贤争夺赛,让某家美元基金相关人员直接表示,“不关注AI大模型,太贵了。”

  更有投资人直言,真实情况是项目根本抢不起来。一是估值体系还不成熟,几亿一轮融资,释放10到20个点的股权,估值马上超10亿,而这估值还是按照一个大模型烧GPU消耗的成本去计算,而不是以其真正的商业价值去评估;二是国内存在商业化落地以及时机的不确定性。

  “大家看好宏观趋势,也更愿意做跟投,但到具体项目,要领投可太需要勇气了。而且一起进场投,很可能会追高。”

  但有VC放弃,就会有VC勇往直前。

  有几家机构跟猎云网表示目前仍在持续学习中,但还未形成投资逻辑,处于想投但是多观望的状态。而这样的状态反应到项目端,却也引发了部分创业者的吐槽,有创业者表示,很多基金与其说是投资沟通,不如说是找他们学习。

  “有VC还在问一些很基础的问题,譬如大模型跟原来小模型有什么不同。天天给人教育,相当于变成了一个免费的老师,后面的尽调也一直在问偏学术上的问题,商业上的考量都还没有聊到。”

  显然,在一级市场投“真香”大模型上,多看少投甚至不投成为了大部分VC的日常。

阿里达摩院plug中文预训练模型预训练模型狂飙

  国内大模型“冷饭热吃”

  说起大模型,其实也不算什么新鲜概念。

  国外超大规模预训练模型始于2018年谷歌提出BERT大规模预训练语言模型,并在2021年进入“军备竞赛”阶段。

  2020年,OpenAI推出GPT-3超大规模语言训练模型,参数达到1750亿,用了大约两年的时间,实现了模型规模从1亿到上千亿级的突破,并能实现作诗、聊天、生成代码等功能。

  再到2021年,谷歌推出的Switch Transformer模型成为历史上首个万亿级语言模型多达 1.6 万亿个参数,并在12月提出了具有 1.2 万亿参数的 GLaM 通用稀疏语言模型,在7项小样本学习领域的性能优于 GPT-3。

  同期,国内超大模型的研发发展也很迅速,2021年成为中国AI大模型爆发的一年。

  商汤科技的计算机视觉模型、华为云联合发布的盘古NLP超大规模预训练语言模型和盘古α超大规模预训练模型、阿里达摩院PLUG中文预训练模型以及联合发布的M6中文多模态预训练模型以及百度的ERNIE 3.0 Titan模型陆续面世,其中达摩院M6模型的参数达到10万亿,直接将大模型的参数提升了一个量级。

  虽然当时国内院校跟大厂都在做大模型,但在银杏谷资本高级投资经理钟伟成看来,这更多是科研上的效果复现,对国外较为前沿的AI模型的跟进。直到2022年年底StableDiffusion、ChatGPT的出现,才开始让更多业内人士从观望走向下场。

  “之前产品的商用价值并没有完全体现出来,大部分比较好的落地场景是心理慰藉的对话,或者文档的改写生成,以及此前的AI绘画。ChatGPT出来后,大家发现说可以通过多轮对话去做不断微调、上下文学习,然后去生成更好的内容。”

  从技术和战略层面上看,ChatGPT让更多人意识到这不单只是一个应用工具,甚至会成为一个新的PaaS层基础设施。从技术和战略层面上,群雄争霸,都想试图成为一个新时代的基础设施供应商。

  再到2023年,上市公司和大厂陆续放出做大模型的信号,AIGC概念股股价翻番,外加“AI的iPhone时刻 ”无不让这股热度从二级市场涌向一级,引发对语言大模型的重点关注。

  风口之下,从前年开始布局的学院派等语言大模型创企从去年开始浮出水面,击中了有出手压力的VC心巴。

  钟伟成表示,多数投资人在大环境不确定下,会倾向于寻求一些偏底层及回报较高、能最终形成一家独大的投资领域,外加对错过下一个时代风口的焦虑,使得语言大模型项目成为了市面上最为性感的一类投资标的。

  然而赛道虽香,语言大模型的火爆表象下,技术差距并不止一点。

  以当前国内大厂语言基础大模型十几亿、几百亿的参数规模,以及大多数创业公司还在做一两百亿的参数模型来看,跟ChatGPT相比,还有2-3年的距离。

阿里达摩院plug中文预训练模型预训练模型狂飙

  VC看多投少,项目端狂蹭热点

  正如上文所说,现在VC看大模型,光看鲜出手。

  一方面,是因为一些基金是从AIGC火了后,才研究和关注大模型,开始找项目,正处于学习阶段,而更主要的原因是贵。

  以OpenAI为例,其在推出GPT3的API接口出来之前,已经烧了好几亿,后在微软百亿美元狂砸下,才有了GPT3的面世及能力的涌现。

  所以想要对标ChatGPT,资金必不可少。

  钟伟成表示,过去,团队健全的大佬创业项目,一般第一轮估值2-3亿元就已经很高。但放到大模型创企来说,光1年租1000张GPU卡就要花大几千万到1亿元的支出。

  “这还只是试错的成本,万一技术路径选错了,模型训练的过程中出了一些bug,重新弄根本吃不消。天使轮估值就这么高,等退出还要7-8年,跑出来的还不一定是投资的那一家。冒着整支基金回报的风险去投大模型,是项目推进时较大的阻力。”

  与此同时,不同背景的基金之间,对于基金存续期以及试错风险的承受度都有不同的要求,部分基金会要求被投企业尽早做商业化尝试,而这样的投资模式跟慢工出细活的通用基础大模型并不适配。

  就目前来说,旗下有美元基金的机构存续期较长,更容易下注投资语言大模型,但就目前主要投资早期轮来看,随着语言大模型项目到第三四轮,一轮5-10亿的砸钱下,估值到50亿元后,谁来接盘又成为问题。

  在钟伟成看来,与百度阿里等大厂,有内部资金支持科研团队去做不同,国内语言大模型创企,投资风险高就在于不确定因素太多,早期VC基金攒局投完以后,后期轮还是需要国资机构的投资介入,帮助创企缓和资金量,才能推动扶持出一家头部企业。

  他不禁感慨,“别看创业公司去做语言大模型好像很热闹,最后的格局可能还是一家特别大,两家相对小的中文语言大模型存活下来。”

  与此同时,以目前市面上的大模型项目来说,蹭热点的也不在少数。

  就华映资本董事刘天杰的感触来说,他从年底开始开始看AIGC的项目,过去是一个月看5-10个,现在是每天都要看3-4个,其中大概有1/4跟大模型相关。在他看来,现在项目多到已经成为继上一波移动互联网以来的新一轮全球狂潮。

  “所有人都想第一波冲进去,挺正常。现在很多做语音图像识别的中后期轮甚至上市公司都在蹭这一波热度,有些公司号称做大模型,但最终是面向应用的,其中大模型也得分语言大模型,以及中度的促进性模型。”

  故而在一级市场上,普遍VC采取看多投少的节奏,尤其是在大模型底层还未确定能发展多快的情况下,美元基金偏好语言大模型,人民币基金则更偏向应用层,但总体出手还是相当审慎。

  此外,刘天杰还指出,上一波AI公司现在往AIGC靠拢,其实已经很难追上。事实上,这就是一场AI的自我革命。

  “国外大模型从2018年就开始研究,这不是一蹴而就的事情。传统判别式或者做卷积网络的AI团队现在跳出来讲大模型,但是他在传统AI技术路线上投入了太多时间人力,历史包袱成为其困局所在。”

  同时,刘天杰也坦言,在基础大模型领域,其实文字、图形乃至视频的创业机会都不大。

  “因为这不是一个拥有几个算法天才就能解决的事情,你需要一个非常庞大的算力基础,这可能现在连国内的大厂都没有,就更别说创业公司。同时你还需要一个巨大的高质量数据集基础,纯靠公网扒取、或者花钱去买,想要去做语言大模型真是挺困难。”

  再回到现如今的大佬纷纷下场创业,在钟伟成看来也并非独具优势。

  “很多大佬是邀请了一些以前参与过大模型训练项目的人,把架构搭起来重造,但其实不同量级的语言大模型训练,在工程化上都有很多不同的坑需要去逐步攻克,从0开始做,同行的竞争压力还是蛮大的。”

阿里达摩院plug中文预训练模型预训练模型狂飙

  应用层暂时失宠,模型层投资机会在“细分”

  短期来看,国内互联网大厂在研发语言及多模态大模型的节奏下,未来3-5年会出现各种不同垂直领域的大模型,甚至细分到各个公司私有化部署的大模型。

  在这样趋势下,各家都会有一个尝鲜期。

  在钟伟成看来,这就跟过去的中台概念很像,短期内激发一波需求,会有很多大厂或初创公司,去辅助大企业炼制自己的AI大模型。而中国的市场里面,长远来看还是会走出一两家通用的语言大模型,由百家争鸣的状态走向大一统,且目前来看互联网大厂的胜率较大。

  “国内公域流量上的中文语料非常差,优质的中文语料又集中在各个不同大厂的私域场景里,比方抖音的视频数据、阿里的图文数据、百度的文本数据,还有知乎跟小红书等,这些数据都是不会共享出来给外部去做通用的大模型训练。而有着私域数据及资金能力的互联网大厂训练各自领域的大模型后,再看哪一家有能力扩展到更多行业,变成一个通用的语言大模型,我觉得这是国内大模型比较符合常理的一个发展过程。”

  那既然创业公司做基础大模型对标ChatGPT的机会不大,那么大模型创业还能往哪卷?

  对此,有投资人给出一些答案:投细分、投基础设施。

  刘天杰表示,现阶段,国内有一些大模型在垂直领域的细分机会可以查漏补缺,包括一些现在在国际上比较前沿的领域,比如3D大模型、视频大模型、多模态大模型等中型模型。

  “微软英伟达,他们也没有足够多的3D数据去训练一个通用的3D大模型,而是用一些中型模型的路径或者说用一些模型监督强化学习的方式去迫近3D大模型。在这一点上,我觉得国内公司是有机会的。”

  对此,钟伟成也持相同看法。“关注垂直的语言大模型或多模态的大模型,国内创企还是有一定的数据优势,譬如字节或快手的人去做视频生成,就很有可能做成。我认为在垂直领域,市场规模足够大、你进得足够早,比别人先积累一些领域内的私有数据,很有可能做到行业一霸。”

  此外,他也认为未来针对模型推理/训练的优化、AI推理/训练专用芯片等AI基础设施方向,也是有比较明确的市场需求。

  值得注意的是,目前相较于模型层,应用层暂时属于失宠状态。

  过去移动互联网或元宇宙浪潮,其最大特点是基础设施发展较慢,但基础设施架构上的应用发展较快。但到了这一波AI,基础设施不仅已经迎来爆发式增长,更在大厂大模型的涌入下,不断变化着。

  在刘天杰看来,这种情况下讲应用毫无意义,投入后一旦大厂发了一个新模型,就可能直接把应用干翻。

  “在这种情况下,我们第二波才会看应用。现在的AI公司,如果能在目前中文大模型不那么完善的情况下,释放功能给C端积累大量的高质量数据集,那这家公司才有意义和价值。”

  此外,据钟伟成透露,4月看大模型的投资人基本会对心仪的项目做最后推进,好几家已经close了。现在还在市面融资的大模型项目相对变少,但还是会有很多做应用的AIGC项目主动找上门。

  在他看来,眼下大厂百家争鸣,大模型越割裂,对资本来说是一个利好,让投资机构有机会参与到垂直领域的大模型投资。但对于创业者来说,无论是模型层还是应用层,都需要想清楚,一是找到一个AI原生的细分领域,二是认真思考其所带来的根本性变化在哪,只是生成内容,还是内容的理解及后续合成。

  显然,这新一轮AI浪潮下,找VC拿钱的条件越来越高了。

其他相关

计量经济学 | 门限模型原理及应用

作者: 天天见闻 时间:2024-03-17 阅读: 16
门限模型计量经济学门限模型原理门限模型又称门槛模型,主要用来解决自变量在不同值域内对因变量影响不同的问题。仍旧以上一篇推送中参考的文章《生产性服务投入与制造业全球价值链地位:影响机制与实证检验》为例介绍门限效应的应用。门槛效应为非线性经济关系的研究提供了新的方法,但也提出了新的问题。...

北京现代怎么样(21款北京现代ix35怎么样)

作者: 天天见闻 时间:2024-03-03 阅读: 34
北京现代车怎么样?北京现代汽车公司,提到北京,成立于2002年10月18日,北京汽车投资有限公司和韩国现代汽车有限公司联合建立汽车制造公司。如果您喜欢现代汽车,可以考虑上述三款。如果您喜欢现代汽车,可以考虑上述三款。在现代店的汽车,折扣30,000,有些人选择不多。现代汽车品牌轿车具有领先和姓名,SUV具有IX35。...

FLUENT阻力系数和升力系数计算案例

作者: 天天见闻 时间:2024-03-02 阅读: 29
今天,我们做一个非常经典的简化小车模型的阻力系数和升力系数计算案例。本案例计算阻力系数和升力系数,根据相关定义,需要设置如下参考值。首先,我们看一下阻力系数和升力系数的监视结果,可以看出经过约200次迭代计算后达到收敛。本案例的阻力系数和升力系数计算结果同参考文献结果对比如下。...
如何有效解决LCD液晶显示屏亮色度不均?

如何有效解决LCD液晶显示屏亮色度不均?

作者: 天天见闻 时间:2024-02-28 阅读: 24
由实验得出,该方法解决了LCD的低亮度显示信号区域校正效果不佳问题,且校正效果达到了显示器的亮度均匀性校正工业技术指标要求。综上所述,本文研究出的亮度色度均匀性校正方法,可有效的解决LCD液晶显示屏不均匀问题,设计和实现的系统可满足当前LCD生产需求。...
碧桂园叫停三四五线城市“全覆盖”战略,用规模换现金

碧桂园叫停三四五线城市“全覆盖”战略,用规模换现金

作者: 天天见闻 时间:2023-12-10 阅读: 52
其口中所谓“全覆盖”战略,就是三四五线城市所有县城、甚至发达城镇区都需要碧桂园的项目。在规模和利润面前,碧桂园选择了现金流。另一地区碧桂园内部人士表示,的确,如果达不到碧桂园高周转的节奏,项目宁可不做,现金流为王。...
量化策略迎“稳定性”大考

量化策略迎“稳定性”大考

作者: 天天见闻 时间:2023-11-07 阅读: 63
在这样的市场环境下,国内量化投资在获得超额收益(即跑步对标指数)等方面面临着“策略稳定性”的考验。此外,当市场短期出现“不合理轮动”时,基本面量化也可以把握相对“不合理合理回归”的阿尔法机会。...
我来说两句

年度爆文