(资料图)
IT之家 3 月 8 日消息,周一,来自谷歌和柏林工业大学的一组人工智能研究人员推出了史上最大的视觉语言模型 ——PaLM-E,参数量高达 5620 亿(GPT-3 的参数量为 1750 亿)。
PaLM-E 是迄今为止已知的最大 VLM(视觉语言模型)。作为一种多模态具身 VLM,它不仅可以理解图像,还能理解、生成语言,执行各种复杂的机器人指令而无需重新训练。它还展示出了强大的涌现能力(模型有不可预测的表现)。
据谷歌称,当得到一个高级命令,如“把抽屉里的米片拿给我”,PaLM-E 可以为带有手臂的移动机器人平台(由谷歌机器人公司开发)生成一个行动计划,并自行执行这些行动。
PaLM-E 通过分析来自机器人摄像头的数据来实现这一目标,而无需对场景进行预处理。这消除了人类对数据进行预处理或注释的需要,使机器人控制更加自主。
PaLM-E 还很有弹性,能够对环境做出反应。例如,PaLM-E 模型可以引导机器人从厨房里拿一袋薯片,由于 PaLM-E 集成到了控制回路中,它对任务中可能发生的中断有了抵抗力。在一个视频例子中,一名研究人员从机器人手中抓起薯片并移动它们,但机器人找到了薯片并再次抓起它们。
另外,PaLM-E 模型也可控制机器人自主完成原需人类指导的复杂任务。除了机器人技术外,谷歌研究人员还观察到使用大型语言模型作为 PaLM-E 核心的几个有趣效果,其中一个是 PaLM-E 能表现出“正向转移”,这意味其可将从一个任务中学到的知识和技能转移到另一个任务中,相较单任务机器人模型能有更好的表现。
谷歌研究人员计划未来将探索 PaLM-E 在现实世界中有更多应用,例如家庭自动化或工业机器人,也希望 PaLM-E 能够激发更多关于多模态 AI 的应用。
IT之家曾报道,身为谷歌 AI 劲敌的微软近期也发表了「ChatGPT for Robotics」的论文,以类似的方式结合视觉数据和大型语言模型来控制机器人。
关键词:
新闻发布平台 |科极网 |环球周刊网 |中国创投网 |教体产业网 |中国商界网 |互联快报网 |万能百科 |薄荷网 |资讯_时尚网 |连州财经网 |剧情啦 |5元服装包邮 |中华网河南 |网购省钱平台 |海淘返利 |太平洋装修网 |励普网校 |九十三度白茶网 |商标注册 |专利申请 |启哈号 |速挖投诉平台 |深度财经网 |深圳热线 |财报网 |财报网 |财报网 |咕噜财经 |太原热线 |电路维修 |防水补漏 |水管维修 |墙面翻修 |旧房维修 |参考经济网 |中原网视台 |财经产业网 |全球经济网 |消费导报网 |外贸网 |重播网 |国际财经网 |星岛中文网 |上甲期货社区 |品牌推广 |名律网 |项目大全 |整形资讯 |整形新闻 |美丽网 |佳人网 |税法网 |法务网 |法律服务 |法律咨询 |媒体采购网 |聚焦网 |参考网 |热点网
亚洲资本网 版权所有
Copyright © 2011-2020 亚洲资本网 All Rights Reserved. 联系网站:55 16 53 8 @qq.com