互联网甚至整个科技圈,终于迎来了又一次全民意义上的沸腾。ChatGPT为代表的AI技术,在大众层面引起热议的同时,又在科技圈、创投圈都荡起波澜。
事实上,ChatGPT或许代表着未来新时代映射进现实的前兆。康波周期的确已经到来,AI技术是否会是开启下一周期的那把钥匙?其商业落地与创业机会又有哪些?作为首批关注AIGC的投资人,银杏谷资本企服高级投资经理钟伟成的视野,落在了“AI原生”上。
01.GPT-4的前世今生
大众热议的ChatGPT,热度贯穿了整个资本市场的2023。而在3月14号OpenAI再度发布新一代语言模型GPT-4后,在商业层面有了共振。
不过短短几天,微软宣布Office全家桶集成GPT相关能力,Github发布基于GPT-4的新一代代码生成工具Copilot X。而ChatGPT同样发布了插件功能——ChatGPT Plugins,赋予ChatGPT调用第三方应用、检索最新网络信息、运行计算的能力。
似乎一个崭新的商业时代已经到来。而回顾GPT发展史,转折点早已埋下。技术定义GPT,即一种自然语言处理模型,通过训练语言模式来生成自然语言文本,从GPT-1到GPT-3从发展路径来说,是更大参数量和数据集和变换器算法迭代而已。
GPT-3可以视为一个发展路径的转折点。其直接带火了“提示学习”这一技术范式,将训练范式从“预训练+微调”引导向了“预训练 + Prompting”。所谓的Prompt理念,是认为预训练模型本身就可以完成很多任务,只需要在输入的时候对模型进行引导。
这成了打开魔盒的那把钥匙。如果说,GPT-3还存在会生成有害输出、无法理解用户意图的问题,GPT-3.5演化,则是引入training on code及引导性微调,来规避这一问题。
精妙之处在于,人类代码存在逻辑的贯通性,而AI模型只需要在代码上进行预训练,就能获得逻辑能力的强化。比如ChatGPT即能使用CoT(Chain-of-Thought即思维链)进行复杂推理。
细数InstructGPT、Text-Dav-002、ChatGPT等基于GPT-3.5技术建立的模型,都进行了对应的能力微调。InstructGPT以针对特定应用场景编写提示的方式来指导模型生成,大幅降低有害、错误的输出结果;Text-Dav-002是有监督指令微调,以牺牲上下文的能力获得零样本能力;ChatGPT则是通过RHLF牺牲上下文学习的能力换取建模对话历史的能力。
换句话说,就是结合监督学习与强化学习,加入了人类反馈强化学习,将人类期待的结果反馈给模型,并且增加了安全机制。共性与个性之间,或许就是ChatGPT能够脱颖而出引起大众共鸣的关键。
但这并不意味着,ChatGPT已经是终点。
不难看出,ChatGPT的技术能力基础,是LLM GPT-3.5。在投喂足量人工标注数据后,该模型已经学会人们对于不同任务的习惯说法,再通过RHLF中的reward model(奖励模型)正反馈给算法模型关于回答评价的好坏,为ChatGPT树立其所谓的正确价值观。
但问题也足够明显——投喂的训练数据存在滞后性,使得ChatGPT无法正确回应时事问题,并且准确性存在一本正经胡说八道的可能,需要用强逻辑语料进行逻辑性调教,回答内容较为冗长等等。
而GPT-4的出现,的确为想象力打开了更多空间。无论是科技,还是商业。来看看它有什么魔力吧:从文本到图像理解的跨越,堪称升维;算法迭代,回答准确性显著提高;上下文理解与生成能力同步提升;最为关键的,更为可控的回答风格。
当然,目前GPT-4的图像输入展示仍是研究“样品”预览,真正的成果尚未公开,回答依旧有错误,也无法完成回应长期任务、无法应对时新问题。但在复杂问题处理和回答风格定制等方面,已经有长足进步。
02.AIGC,如何走入商业实践?
OpenAI宣布推出Plugins(插件功能),被不少人视为AI领域的“App Store时刻”。通过调用第三方应用程序API,用户可以在ChatGPT获得实时信息、知识库信息的检索,也能进行外卖、订票等操作。
这对现有App应用的影响,不可谓不大。这意味着,AI可以直接触达应用平台数据,跳过应用原本的操作界面和中间的工程架构设计。那些产品功能比较单一、产品体验不够多元化的应用将会受到很大的影响。
当然,这还停留在商业畅想阶段。更值得关注的,是生成式AI技术的商业落地进展。严格来说,在2020年以前,生成式AI在各个领域都处于初级尝试阶段,或许文本领域存在垃圾信息识别、基础回答等尝试,但并不具备“性感”吸引力。
自2020年开始,大语言模型得以实现的能力,越来越多元与成熟。可以实现基础文案撰写、可以生成多行代码,再到2022年,普遍可以获得更成熟的文本与代码,并且蔓延到了图像领域。钟伟成认为,在他的视野中,可能不用等到2025年,我们就能够看到基于文本生成视频、3D模型的AI技术在商业领域得到应用。
动动手指或者说说话就能造出游戏的未来,或许就落在生成式AI上。从技术栈来看,生成式AI也存在应用层、模型层、基础设施三个板块。
应用层:以自研大模型或调用第三方模型API的方式,获取大模型技术能力,制作成面向用户的应用软件。
模型层:以商业化API接口或开源大模型的形式,为AI应用提供核心技术能力。
基础设施:芯片等硬件制造商,或者提供云计算服务云厂商,负载着生成式AI模型的训练和推理。
目前来说,不同层级的玩家,面临着截然不同的商业现状。最为百花齐放的自然是应用层。就国际来看,基于文本、图像、视频、代码、演讲、游戏、音乐等不同领域的AIGC应用。
需要承认,AI原生应用,借助大模型能力,有了“颠覆”传统应用市场的机会。大模型以API或者开源的方式,也为应用厂商之间的差异性提供了包容度。
为此,钟伟成介绍了一家营销文案生成公司Jasper.AI,其AI能力基于微调版GPT-3的API,产品能力包括预定义模版完成内容的Starter、能够以80%补全率帮助用户写作的BossMode、定制化生成文案的Jasper for Business等。
这家成立于2021年1月的公司,不到1年就实现了4000万美元的ARR(年度经常性收入),而到2022年底,其付费用户已经接近十万,年收入达7500万美元。不过钟伟成也指出,因为没有自研大模型所铸造的技术壁垒,Jasper依旧存在商业危机。
模型层来说,大模型提供商现状并不理想。重投入、低回报使得玩家并不多,目前独一档的GPT系列模型作为闭源模型,带动了应用繁荣之后,也让各类开源模型获得资本关注,开始加足马力追赶。
相对而言,模型层的API生态已经开始繁荣,而处于安全考虑,大模型私有化部署的需求,也开始涌现。除此以外,Anthropic、Cohere等公司自行构建的大语言模型,由于数据集和模型架构与GPT模型的构建理念差异不大,通用语言大模型的未来格局可能会是一超多强的。
AIGC浪潮真正的大赢家,出现在AI基础设施的玩家中。不得不承认,每秒浮点运算(FLOPS)是生成式AI的命脉,这意味着无论是代表运算速度性能的芯片硬件,还是提供云计算的云厂商,都在整个过程中获得有商业壁垒的持续利益。
2022年到2023年,国内市场的变化,基本反映了整个资本、商业市场对AIGC从观望到追逐的看法转变。但钟伟成认为复刻“中国版ChatGPT”不应该是国内语言大模型公司的创业目标。
ChatGPT的应用形态很容易复制,指令微调、RLHF也不会太难,真正难的是底层语言模型涌现能力的复现。钟伟成指出,模型的涌现能力其实在训练GPT-3.5的时候,就已经存在于语言模型中了,ChatGPT只不过是激发模型潜能的一种方式。大众和许多创业者的视角都集中在复刻“ChatGPT”上,或许是某种意义上的本末倒置。
如果我们关注国产ChatGPT的进展,应该关注的是各种“类ChatGPT”产品底层的语言大模型离GPT-3.5的涌现能力还差多远。在一个没有涌现能力的LLM上套一个ChatGPT的壳,也只不过是东施效颦,但这也是市面中普遍存在的做法。
03.生成式AI,迎来三波浪潮
AIGC的发展浪潮,可以分段为三个时代。
2017到2021的炼大模型时代,自2019年7月微软向OpenAI投资10亿美元开始,全球开始了基础大模型的军备竞赛,国内的华为、智源、达摩院、百度等云计算提供商和AI研究院先后发布了自家的预训练大模型,并不断从NLP延伸出了双语、CV、跨模态等大模型,整体方向还是在追逐大参数量,主要目的还是以学研结果、大厂防御性战略为主。
2020到2023的商业API时代,本质是炼制大模型成本过高,大部分AIGC应用公司只能通过API获取大模型能力。GPT-3的出现,是API生态建立的标志,涌现出Jasper.ai、Copy.ai等公司,并且传统软件开始嵌入AIGC的技术能力。
而这一阶段的转折节点,同样由Open AI发起——2021年其发布CLIP模型,预训练大模型领域由单模态走向多模态。ChatGPT的出现,则定义了多轮对话,就是人机交互界面的一种未来可能。
而在2022开始到未来的一段时间内,将可能进入“专属大模型”时代。一方面,大型企业将会探索大模型私有化部署,围绕LLM(Large Language Model,大型语言模型)打造新技术栈是必然。另一方面,又可能会产生以ChatBot为基座的新一代操作系统,成为人机协作的交互入口,其中间杂着AI原生软件与传统软件之间的对抗。
这一过程中,行业通用的基础大模型由于炼制和微调的成本下降,将会不断涌现。而贯穿大模型训练过程的各类AI infra技术的需求将被进一步激发,又是无限的商业可能。
钟伟成认为,未来商业一个明显的能力差异,是AI原生。AI原生与传统软件集成AIGC能力的区别,是一种生产方式代际更替间的差异。AIGC大幅度提升了信息产业的生产效率,可以定义为另一次技术革命,必然带来产业劳动力与生产方式的迁移。
必须清醒地认识到,国内距离Open AI的技术差距,还很明显。技术路径虽然较为清晰,但实际应用ChatGPT、GPT-4的技术至今都没有完全开源,只能是盲人摸象式探索。而模型的人工调教过程也是一种积累方面的壁垒,有论文指出,模型至少要达到620亿参数量后,才可能训练出CoT思维链能力,这一点需要时间和金钱的双重投入。
而Open AI已经在谋求更远。从GPT3开始,其关注的核心,是通过用户所进行的prompt与微调数据,来形成自己的SFT数据集,以进一步完善模型的业务效果准确性。“所以我们做不出中文语言大模型的时候,抱怨说中文语料质量不如英文语料意义并不大,Open AI已经过了追求事实数据的阶段。”在钟伟成看来,指令数据的收集,又将是Open AI下一个壁垒。
作为银杏谷资本的投资人,钟伟成也透露了自身所看好的几个生成式AI创业方向:比如能够嵌入或者改造传统工作流的生成式AI应用,比如基于多模态大模型的端到端应用,再比如能够帮助用户高效整合知识来构建思考框架和激发灵感的垂直行业应用等。他强调:“生成式AI的价值并不仅仅体现在内容生成,关键信息要素的“提炼与合成”将释放更大的潜在价值!”
如果跳脱应用本身,模型预训练/推理算法优化、向量数据库、AI芯片等AI基础设施,即所谓的AI infra,也是其所看好的方向。
除此以外,“按照三次浪潮的洞察来看,大模型私有化部署或许不是一种很好的商业模式但中短期来看也是一个肉眼可见的趋势”。
比如为金融、能源等拥有海量业务数据、算力及付费能力的B端企业,提供专属大模型的训练、微调迭代及托管服务,以ChatBot的人机交互界面为操作中心重构公司业务流程,并在基础大模型基础上开发生成式AI应用,搭配plugins调用其他软件的数据。“是不是很眼熟?有些类似当年的中台、PaaS平台,却又完全不一样。”。
“特别声明:以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储空间服务。
Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”