


Jay 发自 凹非寺
量子位 | 公众号 QbitAI
OpenClaw(原名Clawdbot)爆火,「贾维斯」狂潮席卷全球。
刚看了下京东,本地Agent甚至已经成了Mac mini的广告语……
最近硅谷的一个本地Agent项目也很有关注度,而且是软硬件打包好,买回来就能直接用的那种。
长这样子,卖250美元(折合人民币约1700元),买来插上电就能当OpenClaw用。
对,硬件版的OpenClaw……
硬件版OpenClaw
名字叫Distiller Alpha,一款Linux硬件,核心计算模块基于树莓派CM5,8GB内存,64GB存储。
在此基础上,还集成了墨水屏、麦克风、扬声器、摄像头……
特别小一个,手掌一半都不到,整体尺寸比手机还小,感觉能直接揣裤兜。
所有都提前在这块硬件里部署好了,扫下墨水屏上的二维码,就能直接进入交互界面,和一个叫Pamir的Agent对话。
OpenClaw能干的都能干,整理文件、翻阅X、发邮件……理论上,只要能通过「点击」解决的事情,都没问题。
同样是一个24小时待命的贾维斯,可以随地大小Code。
这些都不是重点。
上面这些事情,OpenClaw都能做,甚至能更夸张。
Pamir最不一样的地方,是它竟然还可以给硬件Vibe coding……
有人给扫地机器人装了根机械臂,现在不仅能扫灰尘了,遇到大点的垃圾也能顺手捡起。
有个老哥在家里搭了一套赛车模拟器,把Pamir当「副驾驶」用。
每次他跑完一圈后,这个「副驾驶」会自动帮他回顾和分析驾驶数据,然后把这些数据实时展示在他接上的一堆小显示屏上。
就连这个8×8的LED灯阵都能玩出花来,只需要一句话就能搞出各种炫酷的特效。
如果你想,甚至能在这上面玩贪吃蛇……
各种离谱的demo见得多了,能给硬件Vibe coding的Agent倒还是第一次见。
正好最近本地Agent火,相信大家心里多少都有不少困惑:
这条路到底和其他Agent有什么不同?
类似的创业者如何看OpenClaw?
用户又该如何更好地打造自己的「贾维斯」?
带着这些问号,量子位找到了这家硬件版OpenClaw,Pamir的两位创始人之一——叶天奇,聊了聊他们在本地Agent这条赛道上的想法。
采访原文超1.2万字,信息密度很高,其中有不少有趣的观点。
为了完整呈现叶天奇的思考,我们决定不做过多处理,直接把全文端上来。
在这场对话里,你会看到:
软硬一体的Agent,会有什么不一样?
OpenClaw到底做对了什么,火了之后为什么又迅速暴露出一堆安全问题?
为什么Mac mini并不是最适合部署Agent的硬件?
那些提前半年就体验过OpenClaw这种能力的人,现在都怎么用本地Agent?
为什么对初创公司来说,硬件是一条更合适的路径?
AI时代下,电脑的最终形态可能会长什么样?
以下附上访谈全文,为提升可读性,量子位在不改变原意的前提下,对内容进行了适当调整和删减。
请享用。
OpenClaw、本地Agent,以及电脑的下一步
Pamir是什么?
Q:Pamir现在做的Distiller Alpha是什么?它能干些什么?
叶天奇:Distiller Alpha本质上是一台Linux的mini PC,一台非常小的Linux小电脑。
我们把传统电脑里一些最基础的元件单独拎出来,配上小屏幕、LED灯、麦克风、扬声器,以及各种各样的IO接口,把它做成了一个非常紧凑的形态,整体尺寸比手机还小。
在系统层面,我们给这台设备预装了Agent,目前主要用于跑Claude Code。基本上,只要是Linux+Docker能做的事情,它都能做。
最典型的场景是Vibe coding。现在有一批开发者非常痴迷Vibe coding,希望随时随地都能写代码,他们会通过手机远程操作我们的设备。
除此之外,还有一批用户会把我们的设备接到各种各样的硬件上,通过Vibe coding的方式来开发和控制这些硬件。
Q:「Vibe coding+硬件」的组合听起来挺新鲜的,可以展开讲讲吗?
叶天奇:这个方向其实并不是我们一开始有意设计的。从用户角度来看,会购买我们设备的人,往往本身就很喜欢玩硬件。
很多设计师,他们很懂电子产品设计,但并不擅长编程。过去他们使用的往往是比较简单的开发板,如果要做原型,就需要雇电子工程师帮忙。
现在他们会直接把Distiller Alpha接到硬件上,把自己的想法描述出来,系统就可以自动帮他把对应的逻辑和代码生成出来。
还有一些用户,会用它去「接管」已经存在的设备,比如蓝牙设备。
很多蓝牙设备其实并不需要额外的密码,只要发送一串正确的二进制指令,就能完成控制。
他可以直接对系统说:「帮我扫描一下附近有哪些蓝牙设备」「帮我把这盏灯关掉」。
很多智能家居都是自己独立的一套App,非常零散。用Distiller Alpha就能一个页面里,控制家里所有的智能设备。
再比如打印机,你不需要安装官方App,只要知道它内部使用的是什么芯片,就可以让Agent写代码、做简单的逆向工程,让这台打印机工作起来。
Q:如果不靠Distiller Alpha,极客通常是怎么完成这些操作的?
叶天奇:这个问题其实挺有意思的。
我之前也问过一些用户,发现主要取决于技术水平。
技术能力强的人一直都是手写。他们会先去读硬件的说明书,搞清楚芯片型号、通信方式和编程方法,然后直接写代码、烧录。
但对技术能力没有那么强的人来说,过去的主流方式,其实是用ChatGPT。他们会把需求丢给ChatGPT,让它生成一段代码,然后复制粘贴到硬件的编辑器或烧录工具里,点一下烧录,再测试。
如果发现不work,就把报错信息再反馈给ChatGPT,让它改一版代码,再复制粘贴、再烧录。
有了我们的硬件之后,整个链路被闭环了。Agent可以自己写代码、自己烧录到硬件上、自己读取报错信息、再根据结果修改代码并重新烧录。不再需要在中间反复做人肉中转。
Q:为什么Distiller Alpha会出现这么多偏硬件的玩法?
叶天奇:核心的原因在于出发点不一样。
OpenClaw是从软件方向起步。即使你买了一台Mac mini,也很少想到把它当成嵌入式设备,塞进另一个硬件里。
一方面体积摆在那里,另一方面它的IO接口数量有限,也不太容易激发用户在硬件层面进行二次开发的欲望。
而且OpenClaw本身更偏向于为知识工作者设计交互。对开发者来说,如果要写软件,不太可能通过WhatsApp、Telegram这种聊天气泡式的方式,那会非常痛苦。
本质上还是面向的人群不同。我们早期的定位就是remote——一个让你随时随地都能接触到自己Claude Code的设备。最早购买我们的,基本都是Early adopter型的开发者。
后来随着Vibe coding这个概念被更多人接受,有开始有越来越多非开发者、甚至传统意义上的知识工作者购买我们的设备。
有的用户在自己买了之后,还会再给父母买一台。而这些非开发者用户,往往会把我们的产品当成一种「智能硬盘」来用。
Q:Distiller Alpha本身的硬件由哪些组件构成?
叶天奇:我们在设计这款产品时的一个原则是:在体积允许的情况下,把能装的能力尽量都装上。
比如灯带,它的核心作用是显示Agent的工作状态。比如Agent在思考时,会显示黄色灯光;当Agent需要用户介入时,会闪烁绿色灯光。我们希望通过这种比较克制的方式,把Agent的状态融入到设备本身。
现在很多程序会用消息通知或者声音提醒,但我们觉得,用一种更偏「环境感」的方式,通过视觉氛围来反映Agent状态,会更自然一些。
而且,通过环境光来传递状态的信息方式,本身就很极客。这点可以类比喜欢装机、玩电脑的人,会很热衷RGB灯效。
屏幕的设计思路同样比较极客。我们用的是一块墨水屏。一方面,墨水屏显示效果很好,很多开发者本身就对这种屏幕有偏好;另一方面,它的功耗非常低。
有些用户会把这块屏幕改造成自己的Personal dashboard,比如显示股票信息、未读邮件数量,或者当天还有多少任务需要处理。这类信息不需要频繁刷新,墨水屏非常合适。
还内置了麦克风和扬声器。有的用户会设定:每天早上醒来时,让设备从自己的音乐列表里挑一首最喜欢的歌来叫醒自己。
另外,我们还内置了一个摄像头,主要是给开发者使用。有人会用它来远程看看家里的猫狗,或者用来监控另一台电脑的屏幕状态。这些都属于比较自由的开发用途。
Q:算力配置是什么水平?
叶天奇:目前是8GB内存、64GB存储的CPU平台。
这个配置其实不是一开始就想清楚的,你需要积累很多真实使用的know-how,才能知道跑一个Agent到底需要多大的内存、多少存储。
我们会从几个维度去看,比如:一个普通用户通常会同时跑多少个Agent;这些Agent的知识资产大概会增长到什么规模;一个用户大概用多久,设备里的存储就会被填满;Agent的运行上限在哪里,瓶颈会出现在内存、存储还是IO上。
一个很有意思的发现是,我们一开始低估了知识资产的增长速度。
之前没想到会有这么多知识工作者,有些用户会长期给设备外接一块SSD,把每一次对话、每一次任务执行的记录全部存下来,在他们看来,这些是非常重要的个人资产。
这类需求很难在产品设计阶段预判。但一旦接触到用户,就会意识到存储本身,是Agent产品里一个非常关键的维度。
Q:Pamir的技术原理是怎样的?
叶天奇:我们在产品路径上,和很多AI公司不太一样。我们是先做硬件和系统,再在探索过程中不断摸索软件形态。
一开始,我们在设备里直接内置了VSCode。我们的判断是,VSCode基本可以覆盖大多数软件开发和交互需求。后来随着产品迭代,我们不断做减法,把界面逐渐收敛,最终拆掉了传统意义上的「GPT对话界面」。
软件交互主要基于内网直连。只要这台设备是开机状态,无论你在什么地方,用电脑也好、手机也好,都可以直接访问到它。有点像一个ChatGPT式的入口,不同终端之间是完全同步的。
硬件交互方面,设备上有一个小的显示模块,会实时显示当前设备的连接状态。比如我们会展示一个二维码,任何人用手机一扫,就可以直接进入这台设备,向Agent发送指令。
Pamir的差异点在哪?
Q:Distiller Alpha和OpenClaw有什么区别?
叶天奇:在我看来,OpenClaw更像是一个「软件傻瓜包」。
它本质上像一层胶水,把很多已有的能力粘合在一起,解决的是可用性和易用性。这有点像当年大家对原生安卓系统不满意,于是会去刷各种第三方ROM,比如MIUI。
OpenClaw刻意简化了很多复杂的项目管理流程,把所有交互都集中在一个Chat session,同时在记忆持久化上做了大量工作,让普通用户更容易使用Agent。
其实类似OpenClaw的项目以前也不少,没有十个也有五个,只是今年OpenClaw跑出来了。我认为一个重要原因在于,它「胶水粘得足够多、足够好」。
我们更关注另一层问题:如何让用户快速、安全地访问Agent?当Agent出错时,如何在系统层面进行回滚?
围绕这些问题,我们把自己正在做的事情统称为Agent runtime。
除此之外,我们还把麦克风、扬声器、灯带等硬件能力全部打包成SDK,再进一步抽象成Skills,原生地放进Agent体系里。
这样一来,Agent在运行时,就不只是「生成文本」,而是可以通过硬件去表达状态、反馈和意图。
Q:把硬件能力打包成Skills,解决了什么痛点?
叶天奇:一个很直接的痛点是,非技术用户如何快速上手硬件。
我们在卖产品时,会附赠一个硬件小玩具。哪怕你完全不懂技术、不懂编程,拿到产品之后也可以立刻开始玩。只需要开机,把这个硬件插上,就可以直接用,不需要理解它的工作原理。
这个过程其实不需要我们在Agent层或者模型层投入特别大的精力。
因为硬件是通过USB和设备通信的,只要插上,Agent就能立刻识别你连接了什么设备。比如你插的是一块基于ESP32的LED模块,这个信息会直接在系统里被识别出来。
当你再去和Agent交互时,Agent会先检查当前的USB端口上连接了什么设备。它会发现这是一个基于ESP32的、具体型号是什么的硬件,然后再去查看:当前项目目录里,是否已经存在这个硬件对应的说明书。
然后Agent就会知道,如果要给这个硬件写程序,需要用什么工具、通过什么方式刷进去;如果过程中遇到问题,它也知道该如何提示用户,比如提醒你去按一下设备上的reset按钮进行排错。
Q:Pamir能做OpenClaw能做的事情吗?
叶天奇:可以的。因为Distiller Alpha本身也是一台完整的电脑,和买一台Mac mini来跑是同一种性质。
只要是那种长期、可重复利用知识资产的工作,都可以直接放在我们的设备上去运行。
有一位用户是网络安全专家,他积累了非常多年的安全经验,自己整理了一大批网络安全相关的资料和方法论,全都记录在文档里。他把这些文档交给Agent,相当于把自己的经验沉淀成一套可以执行的SOP。
在网络安全领域,有一种常见的工作方式叫做漏洞赏金,安全研究者会到各个网站上寻找漏洞,找到之后网站会支付报酬表示感谢。
这个用户就是把自己的经验交给Agent,让Agent 24小时不间断地在各类网站上寻找漏洞。
Q:Pamir的自研硬件,和Mac mini这种通用电脑有什么区别?
叶天奇:Mac mini有点太奢侈了,如果你的需求只是检查一下Gmail、看看Slack消息,那其实没必要花这么多钱买一台Mac mini。
更重要的是,Mac mini并不是一个原生为Agent设计的系统。
今天不管是电脑厂商还是手机厂商,本质上做的还是「给人用的设备」。他们并没有在系统层面,专门为Agent预留一套执行、行动、回滚的机制。
所以Mac mini开箱之后,你需要自己做大量setup,这也是为什么像OpenClaw这类方案,在真实生产环境中会遇到很多问题。
当然,从纯性能角度来说,Mac mini的硬件上限很高。但我认为,决定一个系统是否能真正投入生产的,不是性能上限,而是系统层面的下限和鲁棒性。
Mac mini加OpenClaw的方案是没法真正投入生产的,原因就在于它的不可控性太强,它不是原生的Agent系统。
Q:那Pamir为了做一个「原生Agent硬件」,相比Mac mini砍掉了哪些功能?
叶天奇:首先,我们没有桌面,也没有传统意义上的屏幕系统。
如果你从第一性原理去思考,Agent的工作时长会越来越长,能力也会越来越强,最终它更像是你的一个同事。而你不会和同事共用一台电脑。
这也是为什么我们没有给Distiller Alpha做桌面系统和屏幕。Agent当然可以在内部使用虚拟桌面、虚拟浏览器,但这些并不需要被人看到。
Q:围绕这种第一性思考,你们增加了什么原生能力?
叶天奇:我们非常重视安全性。
一个很重要的能力是自修复。如果你把一个OpenClaw交给非技术用户,玩一天之后,很有可能就把系统搞坏了,因为Agent本身是可以修改自己代码的。
进Windows时,你可以按F12进入恢复模式,我们认为原生的Agent电脑也应该有这样的机制,不过是由Agent自己来完成。
我们的设备里有一个watchdog系统。当系统出现问题时,它会先进行自检,然后告诉你:比如某个关键文件被误删,导致系统异常。你只需要确认一次,系统就会在几分钟内完成自修复,重启后回到正常状态。
在这种情况下,我们甚至不需要提供什么售后支持。如果你的电脑坏了,让它自己修自己就好。
另外,硬件本身也是一个物理层面的沙盒。
有些安全问题,在软件层面很难彻底解决,但通过硬件就轻松很多。比如你在使用Mac时,会用到指纹解锁。
还有一个很重要的点,我们的每台设备都有一个独一无二的ID。在硬件层面,我们可以加入专门的加密芯片,用来存储这个Agent的ID。这个ID只能通过物理层面的方式进行暴力破解才能拿到。
Agent所绑定的高敏感个人信息,是可以直接和硬件捆绑在一起的,这对于防范围绕Agent的攻击非常重要。
Q:OpenClaw社区最近反馈了很多安全问题,比如擅自重构文件夹,甚至有用户的钱全被转走了,这是怎么回事?
叶天奇:这和OpenClaw的设计取向有关。
它为了追求便捷性和自动化,希望创造更多「hands off」的惊喜时刻,因此在系统里加入了非常多的自动执行逻辑。比如它内部有类似「心跳机制」的设计,每隔一段时间就会主动去寻找可以做的事情。
但它的下限和系统鲁棒性不足,这种过强的主动性和自动性,会直接带来不稳定性。
在我看来,OpenClaw更像是一种新的软件范式。如果你去看它生成的代码,会发现整体结构非常混乱,有不少bug。
这种产品会越来越多,而且也会继续有人使用。但它和我们这种有专业团队、一步一步从系统层和硬件层进行设计、开发的产品,在本质上还是不同的。
我们不会像OpenClaw那样,为了让Agent能一直跑,就不断给它叠加各种Skills。在权限和安全设计上,我们更强调引入人的监管。
Q:所以还是OpenClaw的上限更高?
叶天奇:我纠正一个容易被误解的点,并不是说OpenClaw本身的软件或架构决定了它的上限更高。
更多是因为外部条件:它跑在Mac mini这种性能很强的硬件上,同时又调用了当前最好的模型。
Q:有人把OpenClaw能做的事情从简单、中等到高难度分了几个级别,你能给Pamir做个类似的分级吗?
叶天奇:很多知识工作者买我们的设备,做的事情其实非常简单。他们把它当成一个「聪明的硬盘」。
比如有一位律师用户,有一个项目涉及两百多份文件。我一开始也很疑惑他为什么要买我们的设备,后来发现他之前一直用ChatGPT,但没办法一次性把这么多文件交给它。
我们的设备刚好解决了这个问题。对他来说,它就是一块可以被Agent理解、可以直接操作的移动硬盘。
再比如,有些用户会把U盘插到设备上,然后直接对Agent说:「这个U盘里有个文件,你帮我改一下。」Agent可以自己进入U盘目录,找到文件、修改、再告诉用户已经完成。
这一层的本质就是文件系统级能力。
再往上一层,就涉及真实的「电脑行为」。
比如让设备去查看Twitter、订餐厅、处理网页上的事务。这类事情如果放在纯云端环境,其实并不好做。但我们的设备本身就是一台真实的电脑,有自己的浏览器、桌面和网络环境。
举个例子,我之前想订一家餐厅,一直订不到位置。我就让设备去盯着网页。银行卡信息是存在设备里的,一旦有空位出现,它就可以立刻帮我完成预订。
过去类似的事情,大家通常是写脚本来做,但很容易被网站的「机器人检测」拦下来。现在你可以让Agent像人一样打开网页、浏览、点击,这种行为很难被识别为自动化。
再往上一层,往往和你个人的技术能力或知识资产高度相关。
比如有程序员用户,白天在公司上班,家里放着我们的设备,把自己的「第二份工作」相关内容全部交给Agent。他会在中午休息或者空闲时间,通过设备检查第二份工作的进度、下达接下来的任务,相当于同时做两份工。
类似的情况也出现在电气工程师、维修技工身上。他们过去要带着电脑去现场检修设备,现在只需要带这台设备,把可复用的维修流程和知识资产都交给Agent,再连接服务器就行,能显著加快检修效率。
再往上走,就是偏极客的高级玩法了。
比如之前说的逆向打印机、强行控制硬件。如果你的技术背景足够扎实,只需要把这些知识交给Agent,它就可以很快帮你写出一份Linux驱动,直接控制设备。
为什么要自研硬件?
Q:Pamir是在用一台硬件去替代原本的电脑。另一种是Manus路线,让Agent操纵云端的虚拟计算机。如果看便携性,这种方式岂不是连额外硬件都不用带,只需要一部手机就可以了?
叶天奇:对,从技术上来说,这是另一种解法。
我认为这两种形态在未来都会长期存在,只是它们适合的任务类型不一样。
云端虚拟计算机更适合做一次性的任务,比如调研、科研相关工作。这类任务往往是one-shot的,不太强调长期运行和状态持久化。
但如果你需要的是长期持久化的Agent,问题就来了。这些信息要不要一直放在云端?那是不是意味着你要持续付费?而且很多高度个人化的信息,大家也不太愿意长期放在云上。
这其实和人们买电脑是一样的逻辑。理论上,很多文件都可以放在云端,但真正和你每天工作强相关、需要随时访问的东西,你还是会更希望它在自己身边、随手可用。
另外一个差别点是,硬件更容易通过USB和硬件打交道。尤其是知识工作者,会大量使用U盘、SD卡,实体设备在这种场景下更顺手。
Q:除了刚刚提到的这些功能性价值之外,从你的个人体验来看,这种实体硬件在情绪价值上,能带来什么?
叶天奇:情绪价值其实非常多。
在早期阶段,如果你想用纯软件去「惊艳」开发者,其实是很难的一件事。通过硬件形态,反而更容易让他们产生情感连接。
比如Distiller Alpha,外壳表面覆了一层特殊的手感漆,整体是偏柔软的触感。很多用户第一次拿到设备时,都会觉得这是一个远远超出预期的体验,因为他们从没见过一台「软的」的电脑。
这会让他们意识到:这不是一个Mac mini的替代品,而是一个全新的品类。
产品形态如果不够创新,用户第一句话一定会问:「这和手机有什么区别?」「这和电脑有什么区别?」
我觉得在做面向未来的产品时,很重要的是,要主动打破用户已有的认知框架,消解他们的疑虑,让他们来不及问出这些问题。
此外,当你通过硬件设计、材质、触感,让用户意识到这是一个从未见过的形态时,产品的情绪价值就会被显著放大,这对To C产品来说非常重要。
Q:这也是为什么你们一开始会选择线下销售的原因吗?
叶天奇:对。我们会去参加各种黑客松、线下活动。
你问的很多问题在线下也经常被问到,比如:为什么不直接跑在云上?为什么不直接用ChatGPT?
但现在问这些问题的人越来越少了。我觉得这和OpenClaw的走红也有关系,如果OpenClaw是四个月前发布,很多人可能根本不知道它是什么。但现在,市场对Agent、以及「Agent需要自己一台电脑」这个概念的接受度提高得很快。
Q:你们在黑客松遇到消费者,会怎么说服他购买?
叶天奇:我一般会先问一个很简单的问题:「你平时用不用Claude Code?」
如果对方说用,那其实已经基本落在我们的目标用户范围里了。
接下来我会继续问他:「你现在有没有在写代码?」
通常他说没有。我就会接着说:
「你其实应该在写代码,现在写不了,是因为你把你的电脑合上了。」
这时候他往往会愣一下,然后觉得你说得有点道理。
然后我会直接掏出手机,给他看我正在用手机远程Vibe coding。
这一刻通常就已经完成了认知转变。
还有一些不是当场发生的。有一个极客,平时用机械键盘,晚上敲代码声音很大,女朋友嫌他太吵,不让他继续敲。
但那天晚上他的灵感还没断。他回到床上,突然想起了我们的设备,于是直接给设备发消息,继续推进他的项目。
那一刻他觉得特别爽。后来他在社交平台上发了很多帖子,主动推荐大家买我们的产品。
我觉得本质上,我们打动的,是那些不希望被打断心流的人。
Q:那假设我已经被说服了,也花了250美元买了这个设备,我拿到设备后要做些什么?
叶天奇:首先你需要有一个Claude账号。大部分购买我们设备的人其实已经有了。
拿到设备之后,你只需要插上电,它会先显示一个二维码。扫这个二维码之后,会进入Wi-Fi连接页面,设备连上网之后,会再生成一个新二维码。
你再扫一次这个二维码,就可以进入设备页面,登录你的Claude账号,然后就可以开始对话了。
在最开始的阶段,我们会给用户准备一些「玩具级」示例。
比如我们会引导你创建一个个人主页,这个主页直接跑在这台小电脑上。它可以每天帮你抓取你感兴趣的论文、新闻或信息更新。
硬件这块,我们会附赠一个硬币大小的8×8的LED灯阵。拿到这个小玩具后,有些顾客会描述自己喜欢的游戏角色,说:「你帮我把这个角色展示出来。」
然后设备会自己去网上查这个角色的形象,下载需要的依赖,生成对应的程序。
两分钟左右,这个LED灯阵上就会开始播放他喜欢的角色动画。整个过程用户什么都不用做。
Q:在部署成本这件事上,Pamir的优势主要体现在哪里?
叶天奇:我们其实准备了两套使用方式。
对技术人员来说,你可以直接在电脑上打开,用的就是VSCode这一套熟悉的IDE体系。这一类用户几乎是零门槛,他们本来就在用这些工具。
对非技术人员来说,他们完全不需要碰电脑,可以直接用手机。手机端是一个和ChatGPT很像的网页界面,通过对话的方式来使用。
当然,非技术用户也不是完全不需要学习,只是学习成本会低很多。我也承认,OpenClaw在这一点上做得很好,它通过集成到用户已经熟悉的聊天工具里,对非技术用户来说,几乎是「天然可用」的。
所以两者最大的差别,其实是在交互路径上。
Q:刚才聊了很多新用户的体验,但你应该算最老的用户,用了这么久本地Agent,它对你个人的生活和工作习惯,带来了哪些变化?
叶天奇:变化其实非常大。
我们是深度用户,现在大家对OpenClaw的体验,我们在半年前就已经经历过了。
到现在,我们公司内部已经开始出现一种现象——
传统电脑的存在感越来越低,很多工作,用设备+手机+iPad,甚至再加一个AR眼镜,就已经足够了。
现在我们在打开电脑之前,都会先问自己一个问题:我现在要做的这件事,能不能交给设备?
如果答案是肯定的,那这件事可能已经不需要人去做了。
所有人的角色,几乎都被迫「往上提了一级」。以前你可能还是一个主要负责写代码的角色;现在你更像是一个架构师,需要决定方向、拆解问题、设计系统。
Q:当Pamir帮把很多工作自动化后,你把时间花在了什么地方?
叶天奇:学习,读书。当然,作为CEO,我更多的时间会放在判断接下来几个月可能发生什么,以及应该围绕这些变化去设计怎样的软件架构。
真正花时间的地方,已经从「执行」,转移到了Review和思考上。
过去,行动比想法更有价值。公司之间的差距,主要来自工程能力和工程时间的堆积。
但现在,行动本身的价值在下降,因为Agent可能十分钟就把事情做完了。反而是你的思考、你的判断、你的愿景,变得越来越重要。所以我们现在会花大量时间去复盘、讨论、对齐方向。
Q:这种转变,会对公司的组织形式和工作范式带来什么影响?
叶天奇:我觉得这种变化带来的冲击会非常大,很多公司可能还没真正意识到这一点。
如果把今天的大厂,尤其是一些Frontier Lab,和普通创业公司放在一起看,会发现差距非常明显。
原因在于,模型厂商掌握着模型本身的控制权。
用户在使用过程中遇到的所有问题,都可以被他们捕捉到。这些问题会直接进入下一轮后训练,模型的下限会不断被抬高,鲁棒性会越来越强。
这意味着他们是可以形成闭环的,模型和Agent可以一起成长,产品会越用越好,内部效率也会越来越高。这也是为什么Claude产品会越用越好。
相比之下,如果你只做Agent layer,就算你把Agent写得再好,它也没法把反馈「喂」回模型。你只能不断用人力去维护规则、修补边界。
我觉得今天的创业要想清楚一件事:自己的真正优势和差异化到底在哪里?
一定要做那些别人暂时做不了的事情,主动避开不公平竞争。
Q:如果Claude下场做类似的事情,你们的护城河在哪?
叶天奇:对我们来说,就是系统层和硬件层。
硬件意味着供应链、生产、真实用户交互、物理世界里的反馈,这些并不在模型到Agent的闭环之中;系统层的沙盒、安全、回滚机制,同样是在模型和Agent之上的一层。
说实话,今天软件层面的护城河已经非常薄了,而且只会越来越薄。就算你做出来一个新功能,别人可能花两天就能把复现出来。
真正的护城河,更多集中在硬件本身,以及软硬件的深度集成上。
能耗、芯片选型、内存和存储的配比、Agent能跑到什么边界、供应链周期,这些都需要大量经验和时间去一点一点堆出来。
核心还是两点。
第一,是你对Agent的认知深度。
这个领域变化太快了,几乎每天醒来都会出现新的东西。如果你对Agent的理解没有至少几个月的前瞻优势,很容易就会陷入被动追赶。
第二,是你能不能做出10倍、20倍级别的用户体验差异。
如果只是1.2倍、1.5倍的改进,在今天的软件竞争环境里,很快就会被淹没。
你看现在Claude产品确实已经很好用了,但真正的非技术用户有多少人在用Claude Code?
在我看来,这个体验距离「我爸妈也能用」之间,依然存在明显的gap。而这个gap,恰恰是本地Agent和软硬件结合还有机会去填补的地方。
Q:有没有一些关于使用Agent的小tips,能让普通用户用得更高效一些?
叶天奇:我觉得可以先假设一个前提。如果大家用的都是顶尖模型、顶尖Agent layer,那么最终效果的差异,很大程度上并不来自「模型聪不聪明」,而是你如何和它沟通。
一个很常见的问题是,很多人一上来就把一个很大的任务一次性交给Agent。这种情况下,Agent做不好是非常常见的。
我自己的习惯是先和Agent一起做计划。但我也不会让它一次性把所有事情规划完,然后直接Kick off全流程。那样在执行过程中,几乎一定会出错。
我倾向于把任务切割成足够小、足够清晰的步骤,再告诉Agent把这套计划存下来。
这样一来,它在后续执行时,可以不断回访「自己该做什么」,整个过程会更有条理,执行的鲁棒性也会更高。
还有一个很多人容易忽略的点:如何把一次对话,转化成可复用的知识资产。
很多人Vibe coding完了就结束了,这个过程中产生的大量经验,并没有被保存下来。
比如你在调一个蓝牙模块,怎么都连不上,最后发现是因为某种芯片只接受特定格式的消息。这本身就是一个非常有价值的知识点,在之后的项目里,很可能会反复用到。
所以我会建议用户,在使用过程中有意识地引导Agent把这些错误、踩坑、解决路径,总结成可复用的Skills或规则。
不要用完就结束,记得持续积累属于你自己的知识资产。
本地Agent的创业感悟
Q:能跟我们讲讲你的创业故事吗?最开始做这个项目的时候,起心动念是怎样的?
叶天奇:说实话,这个项目里,运气的成分挺大的。
我们一年半以前就开始做Pamir。那个时候,很多人连Agent是什么都不知道。当时Pamir也不是现在这个形态,我们最开始做的是端侧AI,To B业务。
我和联创张城铭毕业后,大概在大厂工作了两年。那段时间,我们白天上班,晚上和周末就尝试各种各样的项目,但一直没有真正做出什么特别大的东西。Pamir对我们来说,算是一次孤注一掷。
在这之前,我们一直都是边上班、边做项目。但做Pamir的时候,我直接搬到联创家里,睡在他家的沙发上。那段时间其实挺糟的,全职工作也做不好,项目也做不出来。想着「要么成、要么就算了」。
当时做Pamir的判断是:如果你要做嵌入式系统,就一定需要一个端侧的硬件板子。所以一开始我们是在卖开发板,面向的是硅谷一小撮在做对话式AI和硬件结合的极客。
不过,联创和我都是技术出身,对融资一无所知,也不知道应该怎么讲故事,基本就是硬着头皮做。
花了几周时间把原型做出来之后,就直接拿到硅谷去卖。
Q:最开始卖给硅谷,顺利吗?
叶天奇:比我想象中要顺利。
当时正好有两个非常有名的AI硬件项目,一个是Rabbit,另一个是Humane,带起了一波AI硬件创业的热潮。那个时间点,市场是被充分教育过的,我们本身的产品也很有优势。
当时很多做语音交互的AI公司都非常「笨重」:用树莓派,加USB麦克风,再加USB扬声器,拼成一个很大的盒子。
我们给他们展示的,是一个非常小的板子,却能完成他们现有方案里大部分的功能。这对他们来说吸引力非常大。
Q:当时和你们在同一批起跑的竞争对手,现在都是什么状态?
叶天奇:很多都选择All-in端侧模型,甚至是Double down在端侧这条路上,但基本都转去做To B业务了。
从市场上看,To B这几年是有增长的。端侧模型越做越小、越做越轻,在一些明确的落地场景里是成立的,比如车机系统、企业内部的私有化部署,都会有需求。只不过,这条线的增长速度,明显赶不上Agent相关的公司。
我们也不太适合做To B生意,坦白说,我们不太喜欢和B端客户打交道。
一是交期要求非常严格,二是很难发挥想象力。
好不容易从大公司出来创业,结果折腾一趟后,发现自己又在给别人打工。
有一次我在给产品写代码,让Agent跑任务。我盯着屏幕看了大概两分钟,什么都没做,只是在发呆。
突然一个念头闪过——为什么我的Agent在工作,而我却要盯着它看?
从这个体验出发,我们推导出一个结论:未来一定需要一种Agent自己的、独立的计算设备。
想清楚这一点之后,我们几乎是立刻决定把所有端侧相关的方案全部删掉,全面接入当时最新的大模型,彻底转向To C。
之后的事情就比较顺了。
我们开始正式卖产品,开始大量做线下展示。后来Vibe coding开始流行,然后Claude Code火起来,我们又继续往这个方向演进。
Q:你觉得现在更幸福,还是之前在公司上班的时候更幸福?
叶天奇:这是个好问题。
其实我之前也被朋友问过类似的问题,问我理想的生活状态是什么样的。我想了很久,发现现在的生活基本就是我理想中的状态。每天都有新的挑战,还能和志同道合的人一起解决问题。
你可能听说过「传教士」和「雇佣兵」的说法。我们更像传教士,是在为一件高于自我的事情工作,即使短期没有物质回报也愿意坚持。
一开始做Agent电脑,很多人根本理解不了,觉得不可理喻。但我们自己是信的,甚至觉得这件事情的意义,高于我们个人本身。
我们现在创业在做的,就是把它带到这个世界上。我很享受这个过程。
Q:你有没有更宏大的愿景?AI电脑这件事,最终会走向哪里?
叶天奇:我们希望替代现在意义上的电脑,更准确地说,是替代笔记本电脑。
今天人的大量时间,还浪费在极低价值的操作上,比如在不同系统、不同表格之间手动搬运数据。我们希望把这些工作彻底自动化,让人把精力用在真正需要思考、判断和创造的事情上。
也有一点很个人的动机。我其实非常想挑战苹果。
我现在对苹果的态度是复杂的。一方面我很依赖它的生态;另一方面,我对它当前定义「个人计算」的方式感到不满意。公司里很多人也有类似的感受。
手机厂商当然知道自动化、智能体是趋势,他们也会往这个方向走。但路径有根本差异。
他们做的是前台,所有能力最终都要回到屏幕、交互界面和注意力占用上;我们做的是后台,很多任务不需要屏幕,也不需要人持续盯着。
我们认为这是一次非常难得的机会,终于可以不再需要围绕「屏幕」去设计产品。
Q:最近OpenClaw把Mac mini又带火了一波,你什么感受?
叶天奇:这确实是我们很难在短期内追平的一点。
苹果在处理器、硬件整合上的能力,几乎没有对手。这也是我们后面考虑逐步引入高通芯片、一点点缩短硬件差距的原因。
但从另一个角度看,在Agent成为主导范式之后,硬件参数的重要性在相对下降。苹果依然可以继续做极其强大的通用计算设备,这件事不会消失。但它是否一定是Agent的入口,这件事并不确定。
历史上类似的情况其实反复出现过。早期个人计算时代,也有像IBM这样的巨头存在,但形态、入口和主导权依然发生过转移。
我觉得今天是又一次轮回,只是这一次的核心变量变成了Agent。
“特别声明:以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储空间服务。
Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”