鞭牛士报道,7月12日消息,据外电报道,谷歌正在使用 Gemini AI 训练其机器人,以便它们能够更好地导航和完成任务。
DeepMind 机器人团队在一篇新研究论文中解释了如何使用Gemini 1.5 Pro的长上下文窗口(决定 AI 模型可以处理多少信息)让用户更轻松地使用自然语言指令与其RT-2 机器人进行交互。
这项技术的工作原理是拍摄指定区域(例如家庭或办公室空间)的视频,研究人员使用 Gemini 1.5 Pro 让机器人观看视频以了解环境。
然后,机器人可以根据观察到的情况,使用口头和/或图像输出执行命令 - 例如在向用户展示手机并询问「我在哪里可以给它充电?」之后,引导用户到电源插座。
DeepMind 表示,其 Gemini 驱动的机器人在 9,000 多平方英尺的操作区域内对 50 多条用户指令的成功率达到 90%。
研究人员还发现初步证据,表明 Gemini 1.5 Pro 使其机器人能够规划如何执行除导航之外的指令。
例如,当办公桌上有很多可乐罐的用户询问机器人是否有他们最喜欢的饮料时,该团队表示 Gemini知道机器人应该导航到冰箱,检查是否有可乐,然后返回给用户报告结果。
DeepMind 表示计划进一步调查这些结果。
谷歌提供的视频演示令人印象深刻,尽管根据研究报告,机器人确认每个请求后明显的切换掩盖了处理这些指令需要 10-30 秒的时间。我们可能还需要一段时间才能与更先进的环境地图机器人共享我们的家园,但至少这些机器人可能能够找到我们丢失的钥匙或钱包。
“特别声明:以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储空间服务。
Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”
关税逼近,美国网友在Shein和Temu上疯狂囤货,有人一次买15套化妆工具
从DeepSeek到“赤兔”:国产AI生态如何打破英伟达依赖?
高管拦都拦不住!马斯克为何毅然终结Model 2计划
马斯克被拒!加州检察长:他起诉OpenAI可能出于个人目的
消息称苹果watchOS 12将引入Apple Intelligence功能,依赖iPhone运行模型
一加Nord CE5手机渲染图曝光 搭载类似iPhone 16双摄模组
苹果重组销售部门 27年老将离职
英伟达:美国限制H20芯片出口,将损失55亿美元
19.99万的007GT,极氪今晚诚意到位了
何小鹏:人形机器人研发难度远超AI汽车,2026年实现规模化量产
凤凰网科技官方微信