首发体验|AI学会发红包了!国产Agent一句话控制手机电脑,我看到了摸鱼自由的未来
科技
科技 > 数码 > 正文

首发体验|AI学会发红包了!国产Agent一句话控制手机电脑,我看到了摸鱼自由的未来

2024 年,AI 圈最火的关键词非 Agent 莫属。

从 OpenAI 的简单 GPTs 到 Anthropic 能够自主行动的 computer use,再到最近 AI 初创公司 /dev/agents 凭借 Agent 操作系统估值 5 亿美元,厂商们都在试图寻找 AI 下一个明确的落地方向。

而在国内,上个月智谱 AI 也带来了自己的答案——AutoGLM。

如果掏出手机、打开应用、点击搜索、输入关键词…完成这些操作往往要经过四五步,而有了 AI,这些操作变成了真就一句话的事儿。

到了今天,智谱 AI 在北京也推出了一系列囊括多终端的 Agent 产品。

用户只需输入指令,GLM 即可理解指令,规划任务,然后识别界面中的窗口、图形、文字等,并且实现自动操作,如同进入 AI 接管设备的大航海时代。

在 Agent OpenDay 现场,智谱 AI CEO 张鹏现场利用 AutoGLM 面对面建群,并且给在场数百位与会者发送了微信红包,以及线上的口令红包。有没有抢到红包的朋友,不妨在评论区分享你的喜悦。

AutoGLM:移动端(暂时向 Android 开放),可自主执行超 50 步的长步骤操作,适用于比价、导航、刷超话等复杂操作

GLM-PC:PC 端(暂时向 Mac 系统开放),适用于解放打工人双手的生产力工具,手机也能远程操作电脑

AutoGLM-Web:网页端,支持百度搜索、知乎、Github 等数十个网站的无人驾驶

最形象的注脚大概就是,从 Chat 走向 Act,AI 无处不在,但 Agent 同样也无处不在。换言之,从替我们「思考」替我们「做事」,Agent 正在重新定义智能设备。

别人家的 AI 都在聊天,这些 AI 却能帮我摸鱼

AI 帮我摸鱼?AutoGLM 让我躺着刷超话、买咖啡

在之前的文章中,我们已经体验过智谱 AutoGLM 是如何接管我们的手机。

全自动发微信、逛淘宝……以往我们要自己动手的事情,现在都被 AutoGLM 包圆。并且,这位 AI 打工人今天还升级了,本事妥妥地见长。

我们也提前体验上了这些最新的 AI 工具。

我们的消费观是可以买贵的,但不能买贵了。

比如说,前不久,《人类简史》的作者尤瓦尔·赫拉利出版了最新著作《智人之上》,那我为什么不让 AI 帮我在拼多多和淘宝上逛逛,看看哪家划算。

我只需要动动嘴,AI 就帮我跑断腿,不过如果仔细看,把书名弄混还是有点小瑕疵的。

要是在嘈杂环境不方便说话,别担心。

AutoGLM 还配了个「静音模式」,打字也能发号施令,而且在执行任务之前,AutoGLM 也给用户留了 3 秒的「后悔时间」,让你随时能喊停,并调整执行任务。

追星族有个好消息,全新升级的 AutoGLM 连超话签到打卡都能搞懂。

以给李行亮的超话打卡为例,只需对着 AutoGLM 悬浮窗输入我的指令,AI 就会全程代劳,而我只需要遇到敏感信息时「露个面」就行,一键告别「错过打卡」的焦虑。

对了,这些日常任务还能设置快捷指令,一键搞定。

可不要小看这个功能,作为天选打工人,下午定时点的咖啡堪称「续命神器」,不需要每天反复设置,只需要保留下单咖啡的指令,妥妥省去不少功夫。

选择随便模式,所有步骤则是让 AI 为你决策,开启咖啡盲盒,但当涉及到发送,下单付款等重要操作时,AutoGLM 会主动将选择权重新交回给你。

跨应用协作是本次升级的重大亮点。

苹果牌 AI 已经向我们展示了系统级 AI 打通应用墙的重要性,而现在借助 AutoGLM,我们同样能够实现类似的效果,比如我让 AI 去小红书搜个蒜蓉菜心的教程,并成功转发朋友圈。

新增的 AI 导航功能也很实用。想去广州塔?轻轻和 AutoGLM 说一声,AI 就把你安排得明明白白。

比较遗憾的是,AutoGLM 仅支持 Android 系统。

但智谱即日起也将放开 AutoGLM 的用户内测名额,并进一步优化功能以及使用上的体验,预计尽快上线成为真正面向广大 C 端用户开放的产品。

智谱清言的插件 AutoGLM-Web 即日也同样起新上线 AutoGLM 功能。

据悉,AutoGLM-Web 支持百度搜索、微博、知乎、Github 等数十个网站的无人驾驶。

在官方演示的 demo 中,AutoGLM-Web 自动完成了「在百度搜索芒果 TV,打开再见爱人,播放最新一集,发弹幕」。全程没有用户的干预。

▲image description. 图片来自:xxx

从手机到电脑,让 AI 替我当打工人

与 AutoGLM 相比,GLM-PC 则在电脑端提供了更多面向职场场景的功能体验。

GLM-PC 当前专为搭载 M 系列芯片的 Mac 电脑打造,其中以 M1 和 M3 系列设备最为推荐。在对话框中输入你想进行的操作,GLM-PC 就会评估工具并决定操作计划。

当然,遇到敏感操作时,GLM-PC 就会自动暂停,等待用户操作或者进行确认。

想了解 B 站热门内容?GLM-PC 三下五除二就帮你找到「入站必刷」第一条,帮你省去不少漫无目的的划水时间。

要约张三开会?发条微信的事儿,交给 AI。甚至在有页面的遮挡的情况下,也能精准定位到微信的搜索框里。

它还能帮你预定腾讯会议,顺带把会议邀请发给参会人。建议完事后,把这套「操作秘籍」收藏起来,通过流程化来提升工作效率。

作为编辑,我个人最爱的功能是让它帮我梳理海外的 AI 新闻。发出指令后,AI 就会打开浏览器,输入网址,然后一份清晰的新闻总结就能到手。

对了,如果你是刚从 Win 转到 Mac 系统的新人,你多少会因为系统的变化弄到手忙脚乱。

现在 GLM-PC 就是你的「救命稻草」,无论是调整显示模式,还是其他设置,将你的诉求通通交给它。把麻烦的事情甩给 AI,把快乐留给自己,这才是人生赢家的正确打开方式。

GLM-PC 还有一个堪称「王炸」的功能。

先在 GLM-PC 设置中打开「挂起模式」,然后在手机上通过验证码登陆「https://cogagent.aminer.cn/m」,你的手机甚至可以远程遥控电脑。

具体来说,你可以远程给 GLM-PC 发指令消息,让 GLM-PC 进行电脑操作。GLM-PC 每执行一步就会返回操作时的屏幕截图,而如果有敏感操作,则会等用户进行确认后再操作。

在现场的演示中,张鹏也通过手机上 GLM-PC 网页对 cogagent 发布指令,成功通过电脑端的微信发送文件。

实际上,当 AI 开始真正「干活」而不只是「对话」,也标志着 AI 应用进入了「接地气」的务实阶段。可以说,当 AI 真正开始解决日常琐事,它就从玩具变成了一个实实在在的生产力工具。

这或许才是 AI 技术最该有的样子。

Phone Use 时刻

在这两个月手机圈密集发布了多款新品,其中有一个趋势值得留意,虽然 AI 手机还没得到消费者的广泛认同,系统级 AI 成了各家厂商 OS 主打的亮点,其实这也是一种 Agent 落地普及的前兆。

无论是 vivo 的蓝心小V 和发布会展示可以 AI 订餐的 「Phone GPT」,华为鸿蒙的小艺和意图框架,还是荣耀的 YOYO 智能体,都和智谱今天发布的 Agent 的本质一样:

让 AI 模仿人类的 Plan-Do-Check-Act(计划-执行-检查-行动)循环 ,从而像人类那样去操作设备。

就像智谱 AI CEO 张鹏今天的发布会提到,目前的 Agent 能力更像是在用户和应用之间,增加一个智能的调度层,链接所有应用甚至是所有设备。

这可以看做是大模型通用操作系统 LLM-OS的一种雏形,智谱也将这套 Agent 交互称为 GLM-OS 的构建,将对人机交互形式产生极大的影响。

OpenAI 创始成员、AI 技术大牛 Andrej Karpathy 也曾多次谈到大语言模型操作系统(LLM OS),他认为大模型某种程度来说就是一种新的计算机和操作系统,它可以连接各种软件和硬件,以及所有模态信息组成的外设,并通过函数调用执行各种任务。

传统操作系统中,你需要围绕 CPU 构建一堆外设,比如鼠标和键盘、磁盘存储、以及缓存空间等。

而在 LLM OS 中,大模型本身就是中央处理器。I/O 外设也不再是鼠标和键盘,因为LLM可以兼容更多模态的数据输入和输出。同时大模型调用的外部工具也将从传统软件升级为智能体工具。

其中跨应用的操作是非常关键的一环,这意味着 Agent 能实现更加复杂的自主连贯操作,也可能走向真正的商业化落地。

我们在年初曾判断大模型将成为智能手机新的操作系统,自然用户界面(Natural user interface, NUI )将逐步替代现有的图形用户界面(GUI)。

至于各家互联网公司提供的服务能否打通,可能是未来实现这种交互最大的障碍。但无论是智能手机还是应用,都终将是人类发展史上一个阶段性产物。

目前的 Agent 交互还在早期阶段,在行业内 Scaling Law 遭遇瓶颈的背景下, Agent 要怎么能成为真正的生产力工具,承担更高比例的工作决策?

智谱 AutoGLM 技术负责人刘潇在接受 APPSO 采访时表示,预训练肯定还要继续,但对于算法和数据的训练会有一套新的逻辑。

智谱 AI CEO 张鹏也告诉 APPSO,团队对于 Scaling Laws 的空间相对乐观,希望在新的范式和生态下去探索更多可能性。

今年很多厂商不约而同用自动驾驶来形容 AI 终端的智能程度, OpenAI也 将 AI 划分为 L1-L5 五个等级。

与 OpenAI 有所不同,智谱将大模型发展的五个阶段定义为:L1 语言能力、L2 逻辑能力(多模态能力)、L3 使用工具的能力、 L4 自我学习能力、 L5 探究科学规律。

张鹏认为,大模型已经初步具备了人类与现实物理世界互动的部分能力。「Agent 将极大地提升 L3 使用工具能力,同时开启对 L4 自我学习能力的探索」。

从 Phone Use、Computer Use、Car Use 到 All Device Use,大模型的思考能力和 Agent 交互逐步影响我们使用智能设备的方式。

让 AI 发微信和点赞现在看起来实用意义有限,但如同 AlphaGo 无论下棋多强都不会对社会带来多少影响,Google DeepMind 的 AlphaFold 可以预测几乎所有蛋白质结构,帮助大量疾病的治疗和研究。

背后的范式改变才是撬动人类生活方式更新的杠杆,Agent 让大模型从 Chat 走向 Act,下所谓 AI 终端的形态才逐渐浮现,而非只是一个命名的改变。

作者:李超凡、莫崇宇

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载