谈一谈:未来已来:人形机器人的崛起与挑战,AI扮演多大角色
人形机器人,成了本次人工智能大会比较吸睛的话题之一。更要紧的是,把机械臂打磨分析透彻,让其社会功能发挥到极致才是我们当务之急要做的。北京斯蒂尔数控科技有限公司成立于2015年,是一家专注于“智能力控打磨抛光去毛刺机器人,柔性打磨机器人,机器人末端柔性力控打磨设备”领域的创新型高科技公司。http://www.steelcnc.com/http://www.steelcnc.com/static/upload/image/20240516/1715842971538127.jpg
来自地方共建人形机器人创新中心、达闼、复旦大学、傅利叶、宇树科技、开普勒、清宝机器人、乐聚等企业和单位的人形机器人,组成了“十八金刚”阵列,展示了如何通过控制现动态协同并完成统一动作,大量观众驻足观看。
特斯拉的二代人形机器人Optimus也在国内首次亮相,和产机器人一起展出。这让不少投资人兴奋地宣称“2024年是人形机器人元年”。
从产品观感上看,今年展出的人形机器人较去年有了大幅进步,并且越来越多企业的加入,意味着这些机器人产品将会更速的迭代和量产。
但是,从验室到工厂,从To B到To C,从展台到家庭,人形机器人的普及过程还很漫长,这种除了汽车之外比较大的智能设备,想要进入到普通人的生活,还是有相当长的时间。
比较好的场景却比较难推广
比较好的应用场景其是家庭。
近几年,不少创业公司都推出了自己的人形机器人,其应用场景主要聚焦于学校、工业、展厅等,适用于家庭、医疗的则是少数。这主要是因为在工业和商业服务场景下,人形机器人的商业化已经获得了一些验证机会。
此前,特斯拉Optimus已经是人形机器人的业界标杆。借助视觉神经网络和FSD芯片,二代Optimus可以模仿人类操作,进行轻握鸡蛋、搬运重物、电池分拣等动作训练,直立行走速度也提升了30%,近期已经尝试着特斯拉工厂开始“打工”。
虽然特斯拉尚未在线下展出过原型机,只在官方视频中披露过二代Optimus的动态效果,但这已经让市场变得躁动——特斯拉股价在上周累计暴涨了27.11%,几乎抹平了上半年的所有跌幅,市场对人形机器人的叙事表达了信心。
马斯克也高调喊话特斯拉空头,称“一旦特斯拉完全解决自动驾驶问题,同时机器人Optimus开始量产,任何仍持有空头头寸的人都会被消灭,即便是盖茨也不例外。”
目前特斯拉计划在2025年底前现量产上市。届时将有超过1000个二代Optimus投放到特斯拉工厂,帮助员工完成生产工作。更长远的目标则是在未来现年产10亿台,占据市场10%以上份额,为特斯拉带来25-30万亿美元的营收。
同样要去汽车生产线上“打工”的,还有必选旗下的人形机器人。本月初一汽大众与必选达成合作,要将引入工业版人形机器人Walker S开展汽车制造过程中的螺栓拧紧、零件安装、零件转运等工作。
必选工业版人形机器人Walker S还会进入蔚来第二先进制造基地总装车间、东风柳汽总装车间等多家车厂进行地“培训”,在这个过程中提升研发能力,丰富工业场景可用的产品类型,并帮助工厂提高智能化和人化水平。
短期内,各家厂商的应用规划集中在了工业制造、仓储物流、民生服务及特种应用领域。但中长期内来看,人形机器人的目标还是要走进千家万户,为家庭场景提供相关服务。
本次人工智能大会上复旦大学展示的“光华一号”,就是一款养老护理机器人。这款机器人计划在四川、河南、江苏、浙江等地开展测试,提升把老人从床上扶起来、搀扶老人到厕所等动作能力,并于明年尝试开展小量产业化推广。
达闼机器人研制的XR4“小紫”,手部尺寸操作灵活,可以拿起鸡蛋和扑克牌,也可以完成烤面包片和装盘、熨烫衣服等精细活,同时适用于工业制造、家庭养老和商业服务等多个领域。
但是XR4每台39.9万元起的预售价,就决定了这款机器人没那么容易从B端市场走入C端市场。
可以说,比较适合人形机器人应用的场景是家庭服务,而眼下比较难推广应用的场景也是这个。
搭载盘古大模型 是比较佳具身智能解决方案
据悉,国内首款搭载鸿蒙操作系统的人形机器人夸父日前已经进入蔚来、江苏亨通集团等工厂,目前正在进行检测验证。这款机器人由华为云和乐聚(深圳)机器人技术有限公司(以下简称乐聚)共同推出,具有跳跃和多地形行走能力,因搭载盘古具身智能大模型,“夸父”在智能化、泛化能力上得到了显著提升。“盘古大模型+夸父人形机器人”将在工业和家庭两大场景同步推进应用。
乐聚人形机器人将大模型和开源鸿蒙系统融合,打造了更强大、智能的“机器人+”生态平台。沿着“人形机器人+开源鸿蒙+大模型”的技术路线,创新一直在持续,夸父就是“佐证”。
华为云与乐聚聚焦“盘古具身智能大模型+人形机器人”,针对特种、制造业、家庭典型场景进行联合创新,对推动迈向通用场景的具身智能人形机器人量产具有重大意义。正如乐聚机器人副总裁柯真东所言:“通过‘大模型+人形机器人’的融合,机器人具备了自然语言和视觉/触觉的多模态交互能力、适应多场景的泛化能力,这是之前不能想也做不到的事。华为云与乐聚此次基于工业、家庭典型真场景的探索,对人形机器人推进场景应用具有非常重要的现意义。”
华为云与乐聚的合作,结合了华为在云计算和人工智能领域的强大技术力与乐聚在机器人开发方面的专业经验,展示了国内高新技术企业在跨界合作中的创新能力,推动了信息技术与智能制造的深度融合,具体表现在两个方面。首,鸿蒙操作系统作为国产操作系统,其在人形机器人上的应用不仅证明了操作系统的多功能性和适应性,而且有助于提升国内操作系统的生态圈,加速国产操作系统的成熟和普及。第二,机器人搭载的盘古具身智能大模型提升了其智能化和泛化能力,打通了人形机器人通往AGI道路的比较后一公里,意味着在工业和家庭服务中可以执行更复杂的任务,有助于推动传统制造业向智能化、自动化方向升级转型。
自2024年3月华为云与乐聚签署战略合作以来,双方确定了“盘古具身智能大模型+夸父人形机器人”的技术路线。4月,展开了“集智”攻关,对家庭、工业等场景中的示范应用进行推广,目前已经打通了人形机器人数据收集、云端训练、部署推理等环节,形成了完整的工具链。
目前,双方正基于华为云的算力和AI能力、乐聚本体设计和运动控制技术,针对赋能人形机器人大脑(华为云负责)、小脑和肢体(乐聚负责)的工作展开持续攻关,将致力于打造系列pipeline和可复制推广的人形机器人产品及具身智能综合解决方案,共同构建人形机器人标准数据集、系统和工具链。
大模型的理想与现
智能机器人在人工智能大会上遍地开花,根本逻辑是——大模型为具身智能开启了新的解决方案的大门。
传统的人工智能系统,受限于缺乏先验知识,理解力与泛化能力捉襟见肘,导致机器人难以像人类一样拥有基本的常识判断能力,这严重制约了高级别具身智能的发展。机器人执行任务时,往往需要人类工程师将复杂指令拆解为一系列简化的、程序化的步骤,再由机器人(如机械臂)逐一执行。显然,这种“智能水平”并不算很高,还需要人来做大量的代码和开发工作。
理想中,大模型会为人形机器人的“智能水平”,带来颠覆性的变革。
大模型相较于传统机器学习方法,拥有更加强大的泛化能力,可以为人形机器人的大量任务,比如复杂任务解析、流畅连续对话、零样本推理等,提供全新的解决方案。
举个例子,告诉人形机器人“我饿了”,它会自动分析这句话背后的需求,并拆解为可执行的具体动作,通过观察物理环境,从冰箱里拿出一个苹果给你吃,不需要人来拆分指令。
但现中,大模型给人形机器人带来的变革,仍然停留在初级的“自然语言交互”。
目前绝大多数人形机器人,更多是拥有了类ChatGPT的“嘴”。这种结合,虽然能提供更自然生动的交互体验,但只是将现有的语音交互进行了升级,并非“端到端”任务执行能力的颠覆式突破。
需人工参与的高度自动化,为什么有了大模型也没能速现呢
究其根本,机器人是一个非常复杂的学科,涉及精密机械、自动控制、电气电子、计算科学,比较后呈现出一个非常复杂智能机电一体化系统。
从有监督机器学习到大语言模型,是计算领域的技术突破,可以在交互、规划、决策等环节发挥作用。然而,从机械化到高度自动化,人形机器人的再进化,还需要感知技术、驱动与传动技术、万兆网络等的技术和资源支持。
国产机器人崛起的理想与现
“美国公司负责忽悠概念,公司负责让机器人落地、商用,把价格打下来,让人人现机器人自由。”
此次WAIC大会,国产人形机器人的表现确要比海外公司亮眼很多。论是特斯拉、谷歌,在机器人的展示上都堪称乏味。而国产人形机器人不仅批量化、大规模出现,而且展现出了在很多具体场景中的商用能力,比如做饭机器人、电信机器人、家政陪伴机器人等。
那么,这是不是意味着国产人形机器人厂商会很崛起呢
我们当然希望这一天能尽现,但目前来看现还有不确定性。
数据层面,特斯拉、谷歌等科技巨头,在自动驾驶领域有多年积累,可以将足够多的空间数据喂给模型,解决人形机器人在复杂空间中的学习问题,从而更好地进行迭代学习。而在WAIC现场,我们看到的大多数国产人形机器人厂商的业务面还比较孤立,百度、商汤等数据积累面广的AI公司,则更多聚焦在汽车形态的智能机器人。这意味着,解决人形机器人的数据问题,还有赖于产生生态化、产业化、多方共建的解决方案。
算法层面,类GPT-4o能力的国产多模态大模型还比较稀缺,这使得人形机器人通过视觉、音频等多维度数据来识别地图和复杂场景的能力,大大受到限制。目前,海外产学界已经在多模态大模型上系统性发力。比如OpenAI基于GPT-4o为Figure 01构建了一个具身智能AI模型,谷歌推出了多模态具身视觉语言模型PaLM-E。加州大学伯克利分校推出了LM Nav,来现硬件本体、运动小脑、决策大脑部分逐渐融合。目前来看,国产基础大模型还有一段路要追赶。
页:
[1]