a16z复盘消费级AI:为什么还没有AI社交软件?2026年多模态与应用生成为破局关键
科技
科技 > 人工智能 > 正文

a16z复盘消费级AI:为什么还没有AI社交软件?2026年多模态与应用生成为破局关键

图片来源:a16z

Z Highlights

目前已经出现了一些早期迹象,通用LLM助手领域的市场格局,正朝着“赢家通吃”,至少是“赢家通吃大部分市场”的趋势发展。在ChatGPT、Gemini、Claude 3和Cursor这几款产品中,仅有9%的用户会为一款以上的产品付费。

不过,今年的一大突破在于,图像和视频生成模型在真实感和推理能力这两个维度都取得了长足的进步。这里所说的真实感,指的是那些能让图像或视频看起来栩栩如生的细节。

驱动社交应用发展的动力源于用户的两种心理:一种是积极的自我表达欲,另一种是消极的焦虑感。说到底,这就是一场 “地位博弈”。

一款真正成功的社交产品,必须同时兼顾内容消费和内容创作两大功能,而且它所产出的内容,应该是其他平台无法替代的,就像TikTok的短视频和YouTube的短视频那样,具有独特的平台属性。

如今,大模型的性能已经达到了足以支撑开发者搭建真正可规模化应用的水平。因此,我们有理由期待,2026年将会成为消费级AI应用开发者大放异彩的一年。

2025年末,消费级AI已迈入全新发展阶段,市场格局渐显且多模态技术重塑创意工作流,行业变革与机遇并存。2025年12月29日,全球顶尖风投机构a16z消费领域合伙人Olivia Moore、Anish Acharya、Justine Moore和Bryan Kim受邀参与节目,一同回顾2025年AI领域在产品与模型层面的重大变革,展望2026年发展趋势,深入探讨消费级AI “赢家通吃” 格局成因、产品设计核心价值等关键议题。

2025消费级AI市场格局:头部领跑与竞争态势

Olivia Moore:今天,我们要探讨的话题是“谁是2025年消费级AI赛道的赢家”。可以说,在这一年里,两大模型巨头——OpenAI和Google,比其他任何企业都更积极地向消费级市场发力。无论是推出新模型,还是发布面向主流用户的新产品、新功能与新交互界面,两家公司都动作频频。

或许有人会疑惑,究竟谁在这场竞争中处于领先地位,这件事真的重要吗?目前已经出现了一些早期迹象,表明通用LLM助手领域的市场格局,正朝着“赢家通吃”,至少是“赢家通吃大部分市场”的趋势发展。数据显示,在ChatGPT、Gemini、Claude 3和Cursor这几款产品中,仅有9%的用户会为一款以上的产品付费。而在今年的大部分时间里,使用ChatGPT的用户中,不足10%的人会去体验Gemini这类其他头部LLM服务商的产品。

如果现在就下定论的话,ChatGPT无疑是当前的绝对领跑者,其周活跃用户数量达到了8亿至9亿。据估算,Gemini在网页端的用户规模约为ChatGPT的35%,在移动端则达到了40%左右,其他所有产品都远远落后于这两者。例如,Claude 3、Grok和Perplexity的使用率仅在8%至10%之间。

不过,尤其是在过去的3至6个月里,随着Nano Banana这类迅速走红的新模型问世,市场格局正发生着迅猛的变化。Gemini的桌面端用户数量同比增长了155%,而且即便用户规模已经相当可观,其增长速度仍在加快,这一表现着实令人惊叹。相比之下,ChatGPT的同比增长率仅为23%。与此同时,我们也注意到,像Anthropic这样的玩家,开始在消费级市场深耕特定细分领域,例如主攻技术需求极高的用户群体。

因此,今天我们邀请到了a16z的消费级投资团队,一同回顾今年头部模型公司在消费级市场的表现,并预测2026年该领域的发展趋势。

核心模型与产品创新:多模态突破与技术演进

Anish Acharya:谢谢Olivia。这一年确实精彩纷呈。如果我们把时间拉回到去年一月,或许可以先从这一年里的产品发布、市场反响、成功经验与失败教训谈起。Justine,来和我们分享一下你今年的观察吧。对于OpenAI和Google这两家公司,你重点关注了哪些方面?又有哪些观点发生了转变?

Justine Moore:好的。正如Olivia所说,这两家公司今年在消费级市场的产品发布尤为密集。

从模型层面来看,它们今年推出的最受消费者追捧的模型,当属图像与视频生成类模型。以OpenAI为例,今年推出的ChatGPT-4o图像功能曾引发了“Giblly时刻”那样的热潮——说起来有点不可思议,这一现象竟然就发生在今年,感觉却像过去了好几年。当然,还有Sora 2这款视频生成模型。

再看Google,其推出的VO系列模型,包括VO3和VO3.1,以及图像生成模型Nano Banana和Nano Banana Pro,都迅速走红,其热度即便没有超过,也足以与OpenAI的“Giblly时刻”相媲美。

在产品层面,我们能看到两家公司截然不同的策略:OpenAI倾向于将更多功能整合到ChatGPT的主界面中。例如,Pulse群聊、购物、研究任务等功能,都是以ChatGPT为核心平台推出的。唯一的例外是Sora,它作为一款独立的视频应用存在。

而Google则更倾向于推出独立产品。虽然他们也通过Google AI Studio、Google Labs、Gemini等众多自有平台发布了不少产品,但同时也推出了许多可直接访问的独立网站。这种模式能够为不同类型的产品打造更具针对性的定制化界面,而不仅仅局限于“输入文本—输出文本”或“输入指令—生成图像/视频”这样单一的交互形式。

Anish Acharya:Justine,关于这一点我有个问题想请教你。记得18个月前,我们还在热议Midjourney,当时大多数多模态模型的核心竞争力都体现在美学风格和真实感上。如今这种情况是否依然如此?今年该领域又发生了哪些变化?

Justine Moore:各类模型在风格上的差异依然存在。而且我发现,在深耕图像和视频生成领域的人群中,Midjourney的地位依旧无可替代——它具备一种独特的美学表现力,而这种能力,其他很多模型如果不借助精准的Prompt,是很难实现的。

不过,今年的一大突破在于,图像和视频生成模型在真实感和推理能力这两个维度都取得了长足的进步。这里所说的真实感,指的是那些能让图像或视频看起来栩栩如生的细节。比如,当画面中有人在行走交谈时,背景街道上行驶的车辆,其行驶方向必须符合常理,不能出现变形或违和的情况。

而在推理能力方面,现在的模型已经能够接收多张输入图像和文本指令,并综合分析这些输入信息,生成出具有连贯性的设计方案之类的内容。这种能力,在去年是绝对无法想象的。

Bryan Kim:没错。我还记得,以前我们还会为模型能在图像中准确生成文字而兴奋不已,而现在,模型已经可以轻松生成精美的信息图表了。更令人惊叹的是,我们只需上传一段优质的YouTube视频,然后指令模型“生成一张能解释这段视频内容的图片”,它就能完美完成任务。这种进步真的是天壤之别。

Olivia Moore:Nano Banana Pro甚至可以生成市场格局图,我就亲自试过一次,效果非常惊艳。而且这款模型已经具备,或者即将具备在图像生成过程中整合网络搜索的能力——它能通过搜索获取准确的企业名单,还能自动抓取这些企业的相关图片并融入生成的图像中,这种功能简直太强大了。

Justine Moore:不过图像生成模型的推理能力目前还存在一个尚未攻克的难题。就在昨天,我测试了ChatGPT image 1.5,发现它在处理需要多步骤推理的任务时,依然存在困难。

我设计的测试任务是这样的:上传一张大富翁游戏棋盘的图片,然后指令模型“移除棋盘上所有地产的名称,将其替换为AI实验室和初创企业的名称”。测试结果显示,ChatGPT image 1.5的表现已经是最接近目标的,但它仍然很难完成整个任务流程——既要删除原有名称,又要构思新的名称,还要将新名称准确放置在对应的位置上,同时还要确保没有重复命名,也不会遗漏任何重要的企业。由此可见,图像生成模型的发展依然有很长的路要走。

Bryan Kim:有意思的是,我发现ChatGPT的图像生成模型有一个很突出的优势,就是它能在多次生成图像的过程中,保持角色形象和艺术风格的一致性。这一点让非常惊艳,尤其在故事板创作这类场景中,这种能力会激发用户持续生成更多相关内容的欲望。

Anish Acharya:在我看来,Nano Banana这款模型最被低估的一点,在于它与搜索功能的整合。我们之前谈到,模型的真实感关乎物理规律等底层逻辑,推理能力则关乎能否精准执行用户的修改指令,而除此之外,还有一个关键维度就是准确性。

产品摄影就是一个很好的例子。如果你让模型“生成这张专辑封面的图片”,或者“生成一张能还原某个历史瞬间的真实照片”,那么模型就必须借助搜索功能获取准确信息,才能完成任务。这种将图像生成与搜索整合的思路,虽然乍看之下并不直观,但实际应用价值却非常高。

Olivia Moore:完全同意你的看法。这让我想到了VO3模型的走红——当初,恐怕没人能预料到,将音频与视频融合在同一个模型中,竟然会成为引爆AI视频生成领域的关键突破。自VO3问世以来,我的社交平台信息流里就充斥着各种超逼真的AI生成视频,如今Sora或许已经成为了该领域的领军者,但VO3无疑是当之无愧的开拓者。

Bryan Kim:我专门统计过,我社交平台信息流里的内容,大约有五分之一都是AI生成的。真的太神奇了。

产品设计与用户体验:细节决胜与场景落地

Anish Acharya:聊了这么多今年的产品发布,其中不少产品,比如VO系列和Nano Banana,都取得了巨大的成功。那在各位看来,今年有哪些被低估的产品,或者哪些产品没有获得应有的关注呢?

Bryan Kim:这是个好问题。目前全球市场中,像Pulse这样的产品可能依然处于被低估的状态。我们之前一直在谈论OpenAI和Google,在我看来,这两家公司的产品都属于生产力工具范畴。如果你现在打开应用商店就会发现,在生产力类应用的排行榜前十中,光是Google的产品就占据了五个席位,这简直太惊人了。而ChatGPT则稳居榜首。这类生产力工具的核心价值在于帮助用户更高效地处理各类事务。

我注意到,现在很多开发者都在从另一个角度进行探索——比如,如何获取用户的数据、日程安排和电子邮件信息,从而为用户提供更具针对性的服务,并主动向用户推送提醒和总结。我知道有很多团队都在深耕这个方向。

考虑到ChatGPT的用户使用频率——我记得大概是每周25次,这个数据相当可观了。基于如此高的用户活跃度,ChatGPT其实非常适合向用户推送主动提醒、内容总结等功能,从而全方位地为用户的生活提供助力。

一直以来,“超级应用”(everything app)的概念在西方市场都像是一个传说。而OpenAI目前正在朝着这个方向迈进——通过整合足够多的用户数据,再加上极高的用户活跃度,未来它完全有能力为用户提供真正实用的主动推送服务。这个领域的发展潜力让我充满期待。

Anish Acharya:那你是ChatGPT的日活跃用户吗?

Bryan Kim:其实我不是。

Anish Acharya:那你用过Pulse吗?

Bryan Kim:也没有。

Olivia Moore:我倒是试用过一段时间的Pulse,但后来基本就停用了。不过我同意Bryan的观点,Pulse以及OpenAI今年推出的其他几款产品,其实都蕴含着全新的技术雏形或理念,它们之所以被低估,很大程度上是因为产品的执行层面还有所欠缺。

另一个类似的例子,就是OpenAI推出的“连接器”功能——现在用户可以通过该功能,将自己的日历、电子邮件和文档等数据与ChatGPT进行关联,而且这个功能在云端也能使用。理论上,用户可以指令ChatGPT“阅读我过去六个月里的所有备忘录,并总结出其中最有意思和最乏味的内容”。

这个功能的潜力其实非常令人兴奋,但就目前的使用体验来看,它的可靠性还有待提升。不过我相信,随着大模型性能的不断优化,如果OpenAI能把这个功能打磨好,那么它完全有机会在专业级用户(ZP注:prosumer,指兼具专业需求和消费属性的用户群体)的工作场景中占据主导地位。

Bryan Kim:专业级用户确实是一个绝佳的目标群体。我们虽然偶尔会讨论这个群体,但必须意识到,99%的普通用户并不会像我们这样,完全依赖日历来管理生活。不过回到之前提到的ChatGPT用户使用频率——每周24次的使用次数,其实已经为产品后续的功能拓展奠定了非常坚实的基础。

Anish Acharya:没错。Olivia,你可是公认的AI产品重度用户。那目前你还在坚持使用哪些产品?你的核心产品组合都有哪些?

Olivia Moore:这个问题问得好。其实在所有头部模型公司的产品中,今年最让我印象深刻、也是我使用频率最高的一款产品,是Perplexity推出的Comet浏览器。需要说明的是,我并没有把Perplexity当作自己的主力通用LLM助手,相比之下,我使用ChatGPT和Claude 3的频率要高得多。但Perplexity Comet浏览器的表现确实堪称一流,一方面是因为它内置了Agent模型,另一方面,更重要的是它支持用户自定义工作流——用户可以设置在特定时间,或者在访问特定网页时,自动重复执行某项任务。这款产品的发展动态一直让我非常关注。从数据来看,Comet浏览器发布时的流量峰值,以及后续的用户留存率,都远远超过了ChatGPT自家推出的Atlas浏览器。考虑到ChatGPT的渠道分发能力要比Perplexity强得多,这样的对比结果确实有些出人意料。此外,Perplexity今年还推出了一款电子邮件助手,并且收购了几家在Agent技术领域实力强劲的初创公司。因此,我非常期待他们明年能推出更多面向专业级用户的专属交互界面,这会是他们未来值得深耕的一个绝佳方向。

细分赛道博弈:社交尝试、挑战者突围与生态竞争

Anish Acharya:Perplexity这家初创企业,给人的感觉是它的野心格局极为宏大,完全可以与那些头部AI实验室以及大型科技公司相媲美。单看他们今年推出的产品数量,就足以令人叹服。Justine,我还有个问题想请教你——Gemini凭借其一系列图像和视频生成模型,如今确实风头正劲。你认为它有机会超越ChatGPT吗?这类模型的市场需求,真的有那么旺盛吗?

Justine Moore:答案是肯定的。从我观察到的情况来看,市场对于顶尖级图像或视频生成模型的需求,几乎是无限的。原因在于,这类模型会吸引形形色色的用户群体关注和使用。对于专业用户而言,比如从事市场营销、娱乐产业或故事板创作的人群,他们总是希望使用该领域最前沿的工具。因此,为了使用VO模型,他们完全愿意跳出ChatGPT和Sora的生态,转向其他平台。即便是普通消费者,顶尖图像和视频生成模型的新功能也常常会催生大量热门潮流,进而带动用户去尝试那些他们从未接触过的新产品。比如,用户可能会专门下载Gemini应用,或是偶然进入Google AI Studio——我知道谷歌原本希望这个平台更多地面向开发者,但在过去几个月里,很多用户都通过它体验到了Nano Banana Pro。

Olivia Moore:没错。在我看来,Gemini的一大优势在于,它理论上可以充分借助谷歌庞大的渠道分发优势。数据显示,在安卓系统中,Gemini的移动端用户规模已经达到了ChatGPT的50%左右,而在苹果iOS系统中,这一比例仅为17%。由此可见,安卓端的策略显然是奏效的。谷歌最近还在Chrome浏览器中推出了小型Gemini小组件,以此鼓励用户使用;同时,他们也在将Gemini整合到Google Docs、Gmail等其他应用中。但问题在于,大多数普通人目前仍然只使用一款AI产品,而ChatGPT就像是AI领域的“舒洁纸巾”(Kleenex)——这个品牌已经完全成了同类产品的代名词。正是基于这一点,Gemini要实现超越,仍然需要跨越一个巨大的障碍。不过,如果他们能继续保持当前的势头,持续推出那些极具话题性的消费级创意工具和模型,那么明年确实有可能实现赶超。

Bryan Kim:我也一直在思考这个问题。Gemini的特点很有意思——它看似无处不在,但在某种程度上又仿佛“无处可寻”。从实际使用情况来看,用户想到AI工具时,还是会第一时间联想到ChatGPT这个代名词。不过,产品设计理念的差异也同样值得关注。今天早上,我同时打开了两个窗口:一个是OpenAI的图像生成模型,另一个是谷歌Gemini的图像功能。打开Gemini后,屏幕上一片空白,弹出的窗口写着“我们推出了Nano Banana,你是否要体验一番?”,旁边还有一个需要手动输入指令的小输入框。说实话,我当时完全不知道该输入什么。

而反观ChatGPT,它的界面设计极具TikTok风格,会直接展示当下的热门生成主题,比如“手绘风格”等,用户只需点击选择,再上传一张参考图片,就能生成惊艳的作品。生成完成后,系统还会进一步推荐:“你是否想要生成节日贺卡?”“是否需要生成其他类型的内容?”等。正是这些产品细节上的巧妙设计,才能真正推动用户迈出尝试的第一步;而当用户体验到生成内容的角色一致性后,他们自然会愿意继续使用下去。所以,这一点很有意思——OpenAI和ChatGPT团队已经证明,他们具备更深厚的产品设计洞察力。

不过,我想到一个有趣的点,可能说出来不太妥当。我曾在Snap公司工作过,大家应该都知道,在Meta和Snap的竞争史上,Evans Spiegel曾担任Meta的首席产品官。这让我不禁猜想,未来会不会出现这样一种情况:始终在产品层面不断创新的ChatGPT团队,就像当年的Snap;而手握渠道分发优势的谷歌,则如同当年的Meta——谷歌看着ChatGPT的创新,觉得“这个功能不错”,然后直接将其整合到自己的产品中,继续保持领先地位。

Justine Moore:你刚才提到的ChatGPT图像生成界面,其实是在我们录制本期访谈的前一天才刚刚上线的。要知道,OpenAI其实多年前就已经拥有了图像生成模型,却花了这么久的时间,才为图像生成功能打造出一个相对基础的独立界面。我甚至可以说,是那些专注于应用层的公司,比如Creas、Hedraas、Higsfields等,率先普及了这种模板化的设计形式,并且做得更为出色。而这些公司,其实都算是ChatGPT的生态合作伙伴。

Bryan Kim:所以说,这就像是一条产品创意的供应链。完全没错,向来如此。

Anish Acharya:好的,我们不妨稍微换个话题。Bryan,你一直对社交领域很有研究,而且长期以来对AI产品的社交功能持关注态度。我非常好奇你对OpenAI社交功能的看法——毕竟,这类功能的成功不仅需要出色的产品执行能力,还离不开合理的网络设计。当然,Sora在这方面也做了一些尝试,我们稍后也可以聊聊。另外,ChatGPT还内置了群聊功能。你对这些社交功能的前景,是看好还是看衰?目前的观点是什么?

Bryan Kim:就目前而言,我是看衰的。原因主要有两点。我有一个分析产品的方法,我称之为“深层动机理论”(Inception Theory)——就是通过层层挖掘,找到用户使用产品的核心诉求,最本质的诉求可能类似于“我希望得到父亲的认可”。这种分析方法,对我自己适用,对所有人也同样适用。

基于这个理论,我分析了ChatGPT这类产品:当你一层层剥开它的核心价值,会发现它的本质是“帮助我变得更好”——帮我获取信息、提高效率、提升生产力。而当我们分析Meta的Instagram、甚至是TikTok这类社交应用时,会发现它们试图满足的用户需求主要分为两个层面:对于TikTok来说,核心需求是“让我开心”,就像“我需要一个小丑来逗我开心”;而更深层的需求则是“我感到孤独,我渴望被关注,我想要与他人建立连接”。

在我看来,这两类产品的发展方向是截然不同的。OpenAI的产品确实非常出色,堪称“魔法般的存在”,但它归根结底属于“帮助我”的品类,这也是它能在生产力工具领域稳居榜首的原因。而现在,OpenAI却试图将社交属性强行植入产品,告诉用户“大家一起来,更好地建立连接吧”,让用户感觉自己“被关注”。以群聊功能为例,我个人其实很喜欢这个功能——用它来规划旅行,确实能很好地解决协作中的痛点。但它的使用场景最终可能仅限于两到三个人以“寻求帮助”为目的的协作规划。这与“我因为参与了某个社群,而对某个小众领域有了更深刻的理解”这种社交需求,有着本质的区别。所以,长期来看,这种品类上的差异,就是OpenAI社交功能难以成功的原因。但这并不意味着,他们不能开发一款独立的产品,来专门满足用户的社交需求。

Justine Moore:说到社交功能,除了群聊之外,Sora 2是今年所有消费级AI产品中,在社交化方向上的另一大重要尝试。

Olivia Moore:没错,Sora 2的界面设计很像TikTok的信息流,只不过里面的内容全都是AI生成的视频,而且用户还可以制作自己朋友的客串特效视频。

Bryan Kim:这种客串特效的设计,确实是一步妙棋,非常成功。

Justine Moore:不过,从用户留存数据和实际使用情况来看,Sora 2作为创作工具的表现极为亮眼——现在我的社交信息流里,有三分之二以上的内容都是AI生成的,其中超过50%都来自Sora,而在此之前,这些内容大多来自VO和其他一些小众模型。但遗憾的是,它作为社交应用的内容消费属性,表现却不尽如人意。具体来说,只有一小部分创作者在持续产出大量内容,然后将这些内容发布到TikTok、Instagram、X、Reddit等平台,并在这些平台上迅速走红;但在Sora应用内部,内容消费、二次创作和评论互动的热度,都远不如初期了。

Bryan Kim:其实,我对Sora的定位有一个有趣的看法——它的竞争对手或者说参照物,不应该是TikTok,而应该是CapCut(剪映)。从某种意义上说,它更像是一款创意工具。这个角度很有意思。

Olivia Moore:你这个观点很有道理,这其实也印证了你之前提到的那个核心论点——驱动社交应用发展的动力源于用户的两种心理:一种是积极的自我表达欲,另一种是消极的焦虑感。说到底,这就是一场 “地位博弈”。比如,用户会想“我发布的内容涉及个人隐私,有点敏感”,或者“我希望别人觉得我是这样的人”,这些心理才是驱动用户在应用内积极参与互动的核心因素。说到底,这就是一场“地位博弈”。但当内容变成了AI生成的,而且大家都知道这些内容并非用户真实的自我表达时,这种“地位博弈”的价值就大大降低了。当然,新的“地位博弈”也会随之产生——比如“谁能写出更厉害的Prompt”,但这已经属于另一种产品逻辑了。这也是为什么Sora生成的内容能在推特等既有平台上迅速走红,却难以在自身应用内形成社交生态的原因。

Anish Acharya:不过,我倒是有一个相反的观点,或者说一个看好Sora 2的理由——它所引发的“地位博弈”,更多的是围绕“幽默感”展开的。而幽默感的产生,恰恰是“Prompt撰写能力”和“文化敏感度”的结合。所以,如果Sora团队能沿着这个方向持续迭代,或许能开辟出一个前所未有的全新赛道。

Olivia Moore:话虽如此,但用户如果可以将生成的视频导出到其他平台,那是不是意味着,集成了Sora视频的TikTok,其实比Sora本身更具吸引力?

Bryan Kim:我们其实已经讨论过很多次这个问题了——一款真正成功的社交产品,必须同时兼顾内容消费和内容创作两大功能,而且它所产出的内容,应该是其他平台无法替代的,就像TikTok的短视频和YouTube的短视频那样,具有独特的平台属性。

Anish Acharya:那么,大家对那些挑战者品牌有什么看法?我们之前一直在讨论头部企业,其实说起来很有意思,Meta在这个语境下,也算是一个挑战者,但更典型的挑战者品牌,应该是Claude、Perplexity和Grok。Olivia,你怎么看?

Olivia Moore:我非常喜欢Claude,平时经常使用它。对我来说,Claude在很大程度上已经取代了ChatGPT,成为我日常使用的主力通用LLM。Claude的一个有趣之处在于,它是一个“有主见”的模型。我之所以青睐它,还因为我愿意花时间去搭建基于它的AI工作流。我注意到,Claude今年推出了很多强大的功能,比如artifacts和skills——用户通过这些功能,基本上可以设置任务或工作流,并让其自动运行。不过,它之所以尚未普及到大众市场,主要原因在于,这些功能的设计初衷更多地面向技术用户或工程师群体。尽管Anthropic团队已经尽力让skills功能的创建过程变得简单,但对于普通消费者来说,操作门槛依然很高。

再举个例子,Anthropic其实是头部企业中最早推出文件创建、幻灯片制作和编辑功能的,他们将这些功能整合在“文件生成与分析”之类的功能模块中,但这个模块的入口却隐藏得很深——需要在设置栏的二级菜单里才能找到。因此,很少有用户会发现并使用这个功能,然而在我看来,它依然是所有同类产品中,处理这类复杂任务的最佳选择。所以,我很喜欢Claude,但如果它想真正成为一款面向大众消费者的产品,就必须在易用性方面进一步“简化”。你最近不是还看到一份关于美国青少年的调查报告吗?

Justine Moore:没错。那份报告显示,使用过Character AI的美国青少年数量,是使用过Claude的三倍之多。这个数据足以说明问题,覆盖范围确实很广。

Olivia Moore:是啊。所以说,Claude虽然深受科技圈人士的喜爱,但在科技圈之外的大众群体中,它的影响力可能还比较有限。

Anish Acharya:不过,Anthropic的一些产品设计确实很有意思。从美学设计、产品理念到工艺打磨这三个维度来看,Anthropic推出的三项功能——MCP(Model Context Protocol)、skills和命令行界面代码功能(command line interface code),都算是出人意料的大胆尝试,尤其是代码功能。换作是我,可能会质疑:“命令行界面真的是用户想要的交互方式吗?”

Bryan Kim:我还以为你要提到他们推出的邮件功能(air mail)和思维帽功能(thinking cap)呢。没错,这两个功能也很有意思,不过它们更偏向消费级应用。你刚才提到的这三个功能,确实都很有特点。

Anish Acharya:但这些功能的设计理念,确实都非常“高屋建瓴”。或许这么说有点为他们辩解的意思,但我确实觉得,这些有主见的设计,本身就是一种亮点。

Olivia Moore:我还挺想听听Justine对Meta和Grok的看法的。我感觉这两家公司,在今年都以各自独特的方式,书写了精彩的篇章。

Justine Moore:好的。先来说说Meta。Meta今年招募了大量顶尖研究人员,但我发现,他们目前最强大的模型,其实并不是面向消费者的产品,而是SAM 3系列模型(ZP注:Segment Anything Model,万物分割模型,可对图像、视频、音频中的目标进行精准分割和追踪)。以视频模型为例,用户上传一段视频后,可以用自然语言下达指令,比如“找到画面中穿红色T恤的小孩”,模型就能在整个视频中对这个目标进行精准识别和追踪,即便这个小孩多次进出画面也不会丢失。同时,用户还可以对目标应用各种特效,比如模糊处理、删除等。同理,这个模型在音频领域,可以对不同的音轨进行处理;在图像领域,则可以对不同的物体进行操作。我希望明年能看到基于这些模型开发的、令人惊艳的消费级产品,但目前来看,它们更多还是停留在开发者工具的层面,尚未真正面向普通消费者。

Olivia Moore:考虑到Meta这家公司的基因,这样的情况确实有些出人意料。

Justine Moore:确实如此。不过,Meta今年推出的AI功能中,有一项消费级功能做得非常不错,那就是Instagram的AI翻译功能。现在,用户在上传Reels短视频时,可以选择开启翻译功能。该功能会克隆用户的声音,将视频内容翻译成五种不同的语言,并用用户自己的声音进行配音,同时还会实现唇形同步。这项功能简直太神奇了,能让用户听起来就像是某个语言的母语者。我非常期待Meta能在旗下产品中推出更多类似的功能。

再来说说Grok。Grok今年的发展速度堪称惊人,无论是在Agent(companions)功能、LLM性能还是代码生成能力上,都取得了巨大进步。尤其是在图像和视频生成领域,它的发展曲线是我见过的所有公司中最陡峭的——大约在六个月前,他们甚至还没有推出图像和视频生成模型,但此后他们的功能更新速度就一发不可收拾:从最初的图生视频功能,到后来的文生视频、音频整合,再到语音唇形同步,以及15秒短视频生成功能,他们的创新步伐从未放缓。Elon Musk也多次公开表示,希望Grok能推出更多具有互动性的视频游戏类内容,并计划在明年年底前实现用Grok生成电影的目标。希望他们能继续保持这样的发展速度。

Bryan Kim:你有没有觉得,Grok的发展策略其实是一种“双管齐下”的模式?一方面,他们在基础模型层持续发力,力求在性能上达到行业顶尖水平;另一方面,他们又在娱乐领域积极布局。这种双线并行的策略,确实很有意思。不过,就像我们之前讨论的,Anthropic和ChatGPT面向的是大众群体,但数据显示Character AI的受欢迎程度要高得多。这就让我不禁思考:我们应该如何看待这种现象?在我看来,Grok的这种双轨策略,其实非常值得玩味。

Justine Moore:而且,Grok的图像和视频生成应用,从很早之前就开始采用模板化设计,推出了很多热门创意模板。比如,“你站在某个场景中,突然从天花板垂下一根绳子,你抓住绳子,被迅速拉出画面”这类模板。这些模板生成的内容,经常会在TikTok等平台上迅速走红。

2026趋势预测:机会窗口与发展方向

Anish Acharya:确实非常有意思。那么,我们不妨把话题从2025年切换到2026年,各位对明年有哪些预测呢?我们还没有聊到硬件、模型以及电商领域,大家认为这些领域会有怎样的发展态势?

Olivia Moore:虽然我们讨论的是消费级市场,但ChatGPT有一个点可能一直被低估了,而且这个点在明年或许会有更显著的体现——那就是他们在企业级市场的大举发力。无论是传统的企业版授权,还是为特定企业定制训练模型,ChatGPT都动作频频。我们知道,大多数消费者通常只使用一款通用LLM产品。而根据ChatGPT发布的一项大型研究报告显示,其企业级用户规模同比增长了七八倍。如果未来用户出于工作需求,必须在公司使用ChatGPT,那么这很可能会进一步带动其消费级用户的增长。当然,另一种可能性是,ChatGPT凭借其连接器功能以及其他持续投入的功能,发展成为一个一站式的工作平台,而消费级市场的各类应用场景则由其他产品来占据。说到这里,我们不得不提一下ChatGPT在应用生态上的布局,这一布局能否成功,将会成为决定他们明年发展走向的关键问题。

Anish Acharya:没错。我们都讨论过应用SDK(ZP注:SDK,Software Development Kit,是软件开发人员用于构建应用程序的工具集合)和他们所称的应用程序目录的重要性,这两者将会成为消费级市场一个全新的重要渠道。但有一个点很少被提及,那就是它们对企业级市场也有着极高的相关性。ChatGPT的优势在于,它能够在一个工作流程中整合多款工具协同运作。而回顾我们日常的工作场景,绝大多数任务其实都需要跨多款工具来完成。因此,这一布局将会对SaaS(ZP注:Software as a Service,一种通过互联网提供软件服务的模式)生态系统产生十分深远的影响,而这也是目前应用商店领域中较少被探讨的部分。

Bryan Kim:嗯,这或许算不上是一个严格意义上的预测,但回顾2025年,我们聊到了头部实验室的诸多重大举措,而从初创企业的视角来看,今年最显著的趋势之一就是应用生成技术的兴起。未来很有可能出现这样一种情况:手握渠道分发优势且拥有高用户活跃度的头部实验室,会开始尝试在其自有产品生态内,帮助用户生成那些具有共性的产品和应用。这一点其实很有意思,再次印证了我们之前提到的“产品创意供应链”的观点。

另外还有一点,虽然算不上突破性的创新,但正如我们所知,“吉卜力风格”的生成效果曾经火爆全网——我那位对科技一窍不通的表妹,当时都给我发来了一张用AI生成的吉卜力风格的照片。这充分说明了模板的重要性,风格的重要性。

再看视频生成领域,现在的技术已经相当成熟了。或许我们现在已经进入了一个新阶段——决定产品竞争力的,不再仅仅是头部实验室模型的性能,而是风格化的设计和模板的打造。就拿TikTok来说,其核心技术能力其实一直没有太大变化,但凭借不断迭代的音乐潮流、舞蹈挑战等内容形式,始终保持着极高的新鲜感。因此,未来完全有可能出现这样一种趋势:开发者可以探索各种创新方式,在这些实验室模型的基础上,打造出真正以视频为核心的产品。而且随着技术成本的不断下降,会有越来越多的人愿意去尝试这类产品,我对此非常期待。

Justine Moore:是的,我最期待的趋势其实也与此相关,那就是万物皆可多模态化。我将其称之为“任意输入,任意输出”。回想最初,尤其是在图像和视频生成模型刚刚兴起时,用户只能输入文本Prompt,然后得到一张图像或者一段视频,无法进行更多复杂的操作。而现在,随着Nano Banana、Flux以及OpenAI的新模型等图像编辑工具的出现,我们已经能够实现图生图的生成效果;也可以上传一张参考图像,搭配文本Prompt和生成方向,或者结合模板与另一张参考图像,来生成新的图像。

那么,未来如果我们输入一段视频,能否生成与之相关的图像,或者这段视频的衍生版本?如果我们输入一段视频,再配上一段描述编辑需求的文本Prompt,能否直接得到编辑后的视频?从我与各大实验室的交流来看,很多实验室都在尝试将他们目前在不同领域的研究成果进行整合——包括LLM领域的文本推理和智能交互能力,以及图像和视频生成领域的技术。他们试图打造一个能够处理多种类型内容输入,并生成更加丰富多元内容的“超级模型”。这一趋势也会对设计领域产生巨大的影响,因为设计工作本身就是将图像、文本、视频等多种元素,以富有创意的方式进行融合的过程。

Olivia Moore:如果让我从宏观层面做一个预测,明年的整体趋势其实还是“万变不离其宗”。回顾头部实验室今年在消费级市场推出的各类产品,他们在模型研发方面确实表现出色,同时也通过一些渐进式的功能更新,持续优化ChatGPT、Gemini这类产品的核心用户体验。但在我看来,他们尝试推出的数十款新的消费级产品或交互界面,比如群聊功能、Pulse功能、Atlas浏览器、Sora等,以及谷歌推出的Stitch、Gems、Opal、Doppel等一系列产品,几乎都没有取得理想的效果。这背后的原因在于,打造具有鲜明产品主张的独立消费级AI产品,已经不再是这些公司的核心竞争力所在。

在所有这些尝试中,Notebook LM是表现相对较好的一款产品,但这款产品只是谷歌众多尝试中的一个。因此,这对于初创企业来说其实是一个非常积极的信号——头部实验室会持续优化模型性能,初创企业可以直接借力这些先进的模型;同时,头部实验室会不断完善ChatGPT这类核心产品,但他们未必能够在所有细分应用场景中都占据主导地位,初创企业依然有很大的发展空间。

Bryan Kim:我基本同意你的观点,但想补充一点。在纯文本输入输出的场景下,ChatGPT、Gemini这类头部实验室的产品确实占据着绝对的优势。无论一款产品的文本输出能力多么深入、多么精准,考虑到头部实验室产品的超高用户活跃度,如果一款初创产品的核心功能只是文本输入输出,那么想要抢占用户市场将会非常困难。因此,初创企业必须找到一个独特的切入点,才有可能吸引用户尝试使用自己的产品。

Anish Acharya:你提到的“具有鲜明产品主张”这个说法,我非常认同。对于头部实验室来说,当然也包括大型科技公司,甚至未来可能会有更多实验室加入这个行列,产品的优先级往往是由晋升评审委员会来决定的。在这些公司里,产品经理大多是处于职业生涯中期的从业者——我也曾是其中一员。在这样的环境中,大家的核心目标都是获得晋升,而获得晋升的关键路径,就是开发出能够稳定提升核心指标、完善核心功能的产品。因此,开发具有鲜明产品主张的产品,对于个人职业发展来说是一种风险极高的选择。这类产品很可能会失败,还可能引发一系列法律合规方面的问题,甚至可能招致CEO的斥责。所以,这些公司的组织架构,决定了他们更倾向于进行渐进式的创新。而初创企业的创始人越是敢于推出具有鲜明主张的产品,就越能形成差异化的竞争优势。

Justine Moore:没错。而且还有一个很重要的点我们没有讨论,那就是算力问题。头部实验室其实一直面临着一个内在的矛盾:算力资源是有限的,他们必须在模型训练和模型推理之间做出取舍。即便是在模型推理层面,也需要在“吉卜力风格”这类娱乐性应用场景和代码生成这类智能应用场景之间进行资源分配。据我所知,在所有模型公司中,可能只有xAI目前没有面临算力瓶颈的问题。而其他公司则必须做出艰难且重大的抉择——比如,如果他们推出Nano Banana并使其迅速走红,那么这很可能会占用大量算力,从而延缓下一代大型语言模型的研发进度。而专注于应用层开发的初创企业则不会面临这样的问题,因为他们不存在这种算力资源分配的矛盾。

Anish Acharya:完全正确。我们之前其实也聊过这个话题。在某些细分领域,多模态技术的应用能够让企业为用户提供更优质的产品和服务。但从本质上来说,头部实验室和大型科技公司往往只支持自家的第一方模型。因此,随着所有模型性能的不断提升,或许单一模型就能满足用户80%的需求。但对于专业级用户而言——AI领域的发展,很大程度上其实是由专业级用户推动的——你之前总是说,专业级用户终究只是专业级用户。在AI时代到来之前,这个观点或许是成立的,但现在,专业级用户所能创造的价值深度和商业变现潜力,都已经大大提升。因此,或许可以说,AI领域的发展,其实完全是由专业级用户驱动的,而其他普通用户,不过是流量而已。

Olivia Moore:没错。这也是为什么我们首次看到,消费级产品的收入留存率能够超过100%。而这一指标,也成为了区分消费级AI领域中优秀、卓越和顶尖产品的关键标准。

Justine Moore:需要说明的是,这种高收入留存率的实现方式,通常是在订阅制收费的基础上,叠加按使用量收费的模式。用户在订阅套餐的月度配额之外,如果有额外的使用需求,就需要支付更多费用。

Bryan Kim:具体来说,要么是升级到更高等级的订阅套餐,要么是直接购买Token或额外的使用额度。这正是这类产品的独特之处。如果在AI时代到来之前,有人告诉我某家消费级公司的收入留存率超过100%,并且实现了盈利,我肯定会觉得这简直不可思议,完全不合逻辑。

Anish Acharya:没错,说的就是这个意思,而且这个双关语用得恰到好处。好了各位,我们不妨聊聊具体的产品推荐吧。在本期播客结束之后,大家觉得有哪些产品、功能或者模型是值得用户下载和体验的?当下有哪些值得关注的产品?

Justine Moore:从多模态技术的角度来看,有一款非常被低估的产品值得大家关注——它就是Pomelli。这款产品未必适合日常高频使用,但它充分展示了将Agent、图像和文本技术相结合所能实现的巨大潜力。Pomelli是谷歌实验室推出的一款产品,用户只需输入自己公司的网址,它就会启动Agent访问该网站,抓取所有的产品图片和品牌图片,总结出品牌的美学风格、品牌定位以及目标客户群体,然后为用户生成三套不同的广告营销方案。生成的内容不仅包括文案,还涵盖了Instagram帖子、宣传单页以及产品宣传图等物料,并会根据目标客户群体的特点,为这些物料匹配最合适的应用场景。这是一款非常出色的产品,它很难在谷歌内部发展成为一款独立的爆款产品,但它向我们展示了未来的发展方向——当Agent与生成式模型相结合,并且生成式模型能够对上下文语境形成深度理解时,所能创造的价值将是传统图像或视频模型无法比拟的。

Olivia Moore:那初创企业的产品呢?你有没有特别喜欢的初创企业开发的创意工具类产品?

Justine Moore:有的。在创意工具领域,我必须要提一下Krea。需要声明的是,a16z是Krea的投资方,所以我的推荐可能带有一定的主观偏向,但我确实认为Krea做得非常出色。它的核心优势在于,用户可以在一个平台上,体验到所有主流模型——或者说所有高性能模型——在各个模态下的生成效果,同时它还在这些模型的基础上,打造了更加完善的交互界面。比如,我现在更倾向于在Krea平台上使用Nano Banana Pro,因为Krea支持元素保存功能——用户可以将生成的角色、风格或物体保存为元素,后续生成时只需直接调用这些元素即可,而无需像在原生的Nano Banana中那样,反复上传相同的参考图像。这确实是一个非常实用的功能。

Bryan Kim:我想推荐的这款产品,同样属于初创企业的范畴——当然,这也算是为自家投资的公司做宣传了。我目前使用频率最高的产品是11 Labs Reader。这款产品的走红其实是有原因的:如今播客内容呈爆发式增长,而人们的阅读时间却在不断减少。与其抗拒这个趋势,不如主动拥抱它。这款产品的核心功能,就是将文字内容转化为音频内容。我曾经是Pocket这类稍后阅读工具的重度用户,因为平时实在没有时间阅读所有感兴趣的内容,只能先收藏起来。而现在,我的做法是将所有想读的内容,要么转换成PDF格式,要么直接上传到11 Labs Reader。然后在散步的时候,以1.5倍速或2倍速播放这些音频内容,快速了解文章的核心大意。对于像我这样的普通人来说,这无疑是一种高效利用碎片化时间的方式。

Olivia Moore:首先,我非常喜欢这个问题。因为我始终坚信,想要快速了解AI领域的发展动态,最有效的方式就是亲自体验大量的产品,而且你很快就会形成自己的判断。我和Justine其实从12月开始,就在推特上每天推荐一款新的消费级AI产品。除此之外,我还想推荐三款非常实用且有趣的产品,它们可以很好地融入大家的日常工作流。第一款是Gamma,一款幻灯片生成工具。用户只需输入文本Prompt,或者上传一份文档,就能快速生成精美的幻灯片。而且Gamma生成的幻灯片支持灵活调整尺寸,再也不用像在Google Slides中那样,为了调整一个元素的位置而反复折腾。第二款是Granola,一款笔记工具。虽然大家在假期可能没有太多会议,但到了明年,它的优势就会凸显出来——你使用它记录的会议越多,它的体验就会越好,因为它能够基于历史记录,理解会议内容的上下文语境。最后一款,我还是要推荐Comet浏览器。如果你想体验一款真正的AI原生工作平台,那么Comet浏览器绝对是最容易上手的选择之一。

Anish Acharya:对我来说,我今年一整年都在痴迷于代码生成以及AI代码领域,这个领域真的太有趣了。顺便提一下,Bryan之前其实反驳过我的观点,我当时认为头部实验室或大型科技公司很难在应用生成领域占据主导地位,因为他们缺乏足够的专注力。像Opal这类产品,推出时反响平平,而且它们都只支持单一模型。

Bryan Kim:我当时的意思并不是说头部实验室会在这个领域取得成功,而是认为他们肯定会进行相关的尝试。

Anish Acharya:没错,这一点我完全同意。但在纯消费级市场领域,Wabby这款产品确实非常有趣,而且功能强大。它为应用生成技术设定了合理的约束条件,从而能够确保生成的应用具备实用的功能,给用户带来满意的体验。目前来看,应用生成领域其实存在很多夸大宣传的现象,这也打击了早期用户的积极性。另外,我还想推荐大家尝试一下Codex或Cursor中的GPT-5.2,即便是非技术用户,也会被它的能力惊艳到。我甚至觉得,具备技术背景反而可能成为一种束缚,因为你会基于自己的经验,对模型的能力形成预设,而实际上这些模型的潜力要远超你的想象。我越来越多地听到有人说,他们正在使用Cursor来完成知识型工作,比如撰写论文,而不仅仅是编写代码。

Bryan Kim:哇,这个用法太有意思了。在今年年底,我还想尝试一个最近在TikTok上很火的玩法——就是让AI回顾你今年说过的所有话,然后回答“我今年说过的最离谱的一句话是什么”。它会对你全年的言论进行一次全面的复盘。受此启发,我打算在年底也让AI帮我做一件事——让它告诉我,如何才能在明年过上更好的生活。我希望它能给我一些坦诚直率的建议和具体的方向,这会非常有帮助。

Anish Acharya:各位,还有什么收尾的想法吗?

Justine Moore:最想说的一点是,a16z目前正在积极投资消费级AI领域的初创企业。很多人其实都提到过这一点,但我是真心相信,现在模型的性能已经发展到了一个临界点——开发者完全可以基于这些模型,打造出真正具备规模化潜力的应用,Wabby就是一个绝佳的例子。因此,我衷心希望2026年能够成为消费级AI应用开发者大放异彩的一年——这里所说的“开发者”,不仅仅是指产品的使用者,更是指那些打造产品的创业者。

Anish Acharya:好的,感谢大家在消费级AI领域陪我们度过了精彩纷呈的一年。我们明年再会,祝大家圣诞快乐!新年快乐!

原文:Where does consumer AI stand at the end of 2025?

https://www.youtube.com/watch?v=p4-7x6QiYr0

编译:Yihan Bi

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载