能理解一种姿态、一个手势,甚至一个眼神背后的含义,会思考、能行动,还“懂”人的机器人,离我们的生活越来越近。
当前,作为人工智能领域的前沿热点,具身智能正逐步从理论走向实践。位于北京工业大学的具身交互智能北京市重点实验室,就致力于攻克具身智能领域的前沿核心技术难题。在这间实验室里,科技正打破人与机器的边界,让机器拥有读懂人心的智慧和温度。
主动关怀智驾会反思
“您有点疲惫,前方3公里有服务区,要不要开启导航?”具身交互智能北京市重点实验室里,智能座舱“察觉”试驾人的疲劳状态,给出导航建议,随即播放起一首节奏明快的歌曲。
“这是智能交互系统在自主学习后给出的主动响应,并非基于预设规则的程序化应答。我们将智能座舱打造成能主动感知驾乘者意图、理解情感状态、发起自然交互的具身智能体。”实验室主任、北京工业大学人工智能学院院长马楠点明核心技术突破。
从被动执行到主动关怀,看似微小的变化背后,是人机交互的新突破。
传统智驾依赖预设指令库,面对用户个性化表达时常“卡壳”。比如,炎炎烈日,当驾驶者念叨“好热”“今天穿多了”,智驾系统往往“听”不懂,表现得无动于衷。只有驾驶者清晰地说出“打开空调”等关键词时,系统才会执行命令。
能否让驾乘体验更人性?对此,马楠带领团队创新提出“常规行为字典+开放式行为增量学习”的技术方案,依托大语言模型实现用户行为字典的动态更新。通过对驾乘过程中语音、手势等多模态感知数据的持续融合学习,系统能自主捕捉用户无意识的细微肢体动作,识别类似“天气好热”“我有点困”等生活化的表达。
更智能的是,该系统还能“反思”,理解言外之意。例如,当驾驶者说“导航去公司”,系统会根据语速急促程度判断是否赶时间,优先推荐最快路径;驾驶者手动调整路线后,系统会观察偏好,在后续相似场景中自动切换路线;播放音乐时,系统会通过摄像头捕捉驾驶者的微表情变化,结合语音情绪分析,判断他是否喜欢这首歌,甚至主动换歌。
“这套系统打破了固定指令的束缚,构建起一体化的人机交互与驾驶控制协同框架。”团队成员、北工大助理教授杨雅钰评价道。
稳准采摘机器能自主
在具身交互智能北京市重点实验室里,类似“很懂人”的智能机器人还有很多:仿人机器人能在楼宇、园区等复杂环境中自主导航,每隔0.05秒就能实时更新“导航地图”;多台智能交互轮式机器人可以组队作业,编队功能指令发送成功率、接收编队信息显示准确率以及协同控制准确率均达到100%;还有采摘机器人,哪串番茄熟了可以采摘?怎么摘不会伤藤蔓?它会像农民一样判断和思考。
记者在实验室里,就看到了一台正灵活穿梭在两排番茄串藤架间的采摘机器人。当它识别到一串成熟的番茄后,机械臂移动环形刀口从下往上精准地套住番茄串,微微倾斜,切割藤蔓,番茄就滚入了收集袋中,表面完好无损,不见丝毫机械痕迹。与此同时,机械臂已经找到了下一个采摘目标。
“机器人通过智能感知精准识别并锁定番茄的位置,自主设计采摘动作和角度,从识别成熟果实、定位果梗位置,到完成采摘动作,全程无需人工干预。”马楠揭秘。
机器人摘番茄,精度有多高?这里有一组数据:在一场连续自主采集测试中,采摘机器人顺利完成了100米垄间采摘工作,位姿识别准确率达91.25%,最高采摘成功率达92.85%,平均每串番茄的采摘时间仅需30秒。
采摘中的“稳准狠”,核心秘诀在机械臂前端:环形切割刀口负责精准断梗,后端连接着中空管道,让番茄平稳滚入收集袋。而这一整套精准而温柔的动作背后,藏着多项硬核科技——
在分析番茄外貌特征方面,团队采用多任务深度学习检测模型等机器人主动视觉感知技术,给机器人装上了一对“火眼金睛”,即便在密密麻麻的枝叶间,也能一眼认出哪串番茄熟没熟透、果子总共有多少;
在目标空间定位环节,机器人采用基于深度学习的三维关键点检测与位姿估计方法,实现对果梗与果实空间结构的精准感知,这就如同戴了三维透视眼镜,不仅能看清番茄枝的位置和形状,还能自主规划机械臂无碰撞作业轨迹,末端定位精度达5毫米。
细节处也有匠心:研发团队与企业深度合作,在采摘末端执行器设计中,创新性地在环形刀口上定制了钉状导向槽与精细锯片,让机器人能精准将番茄花梗导入槽中锯断,从根源上避免了“误伤”藤蔓的可能。
走向生活科技有温度
“具身智能”被视为人工智能领域的下一波浪潮,核心是让AI系统拥有对物理世界的感知、理解和交互能力,进化成能在真实环境中自主行动的智能体。2025年获批的具身交互智能北京市重点实验室,正是锚定这一方向设立的,致力于攻克具身智能领域的前沿核心技术难题,推动其在智能服务、应急救援、无人驾驶等领域的规模化应用。
实际上,从这间实验室里诞生的科研成果都有一个共同点:可交互、会学习、自成长。这也是马楠深耕机器智能交互研究的初心。
博士毕业后,马楠便加入了我国指挥自动化和人工智能专家、中国工程院院士李德毅团队,开展智能交互应用领域的研究。2013年,她又开始组建跨院校、校企联合的智能交互团队。也因此,当具身交互智能北京市重点实验室成立时,她当仁不让成了领衔人。
“我们琢磨如何让机器人更好地理解人的意图。换句话说,就是要教智能机器察言观色,更精准地理解与识别人的姿态、手势,甚至是一个眼神背后的意图。”在她眼中,智能交互研究就是要让机器有智商、有情商、更贴心、更懂“人情世故”。
依托团队在智能交互领域的长期探索,已有一些科研成果得以走出实验室、走向生产线。
比如,能“反思”的智驾系统已经在理想汽车新一代车型中开展试点应用验证。在她的设想中,随着技术迭代,未来的智能座舱将不再是冰冷的机器,而是能感知情绪、懂“人情世故”的具身智能出行伙伴:它可能会记住你喜欢的空调温度,在你加班晚归时自动调亮车内氛围灯,甚至能在感知到你情绪低落时播放一首你爱听的老歌。
面向未来,马楠说,实验室将继续聚焦以具身交互智能为核心的新一代人工智能发展方向,推动“交互认知+具身智能”深度融合,促进人工智能、机器人学与认知科学的跨学科融合。“我们要让AI跳出虚拟世界,在工厂、医院、家庭里真正用起来,让智能科技照进现实。”
能理解一种姿态、一个手势,甚至一个眼神背后的含义,会思考、能行动,还“懂”人的机器人,离我们的生活越来越近。
当前,作为人工智能领域的前沿热点,具身智能正逐步从理论走向实践。位于北京工业大学的具身交互智能北京市重点实验室,就致力于攻克具身智能领域的前沿核心技术难题。在这间实验室里,科技正打破人与机器的边界,让机器拥有读懂人心的智慧和温度。
主动关怀智驾会反思
“您有点疲惫,前方3公里有服务区,要不要开启导航?”具身交互智能北京市重点实验室里,智能座舱“察觉”试驾人的疲劳状态,给出导航建议,随即播放起一首节奏明快的歌曲。
“这是智能交互系统在自主学习后给出的主动响应,并非基于预设规则的程序化应答。我们将智能座舱打造成能主动感知驾乘者意图、理解情感状态、发起自然交互的具身智能体。”实验室主任、北京工业大学人工智能学院院长马楠点明核心技术突破。
从被动执行到主动关怀,看似微小的变化背后,是人机交互的新突破。
传统智驾依赖预设指令库,面对用户个性化表达时常“卡壳”。比如,炎炎烈日,当驾驶者念叨“好热”“今天穿多了”,智驾系统往往“听”不懂,表现得无动于衷。只有驾驶者清晰地说出“打开空调”等关键词时,系统才会执行命令。
能否让驾乘体验更人性?对此,马楠带领团队创新提出“常规行为字典+开放式行为增量学习”的技术方案,依托大语言模型实现用户行为字典的动态更新。通过对驾乘过程中语音、手势等多模态感知数据的持续融合学习,系统能自主捕捉用户无意识的细微肢体动作,识别类似“天气好热”“我有点困”等生活化的表达。
更智能的是,该系统还能“反思”,理解言外之意。例如,当驾驶者说“导航去公司”,系统会根据语速急促程度判断是否赶时间,优先推荐最快路径;驾驶者手动调整路线后,系统会观察偏好,在后续相似场景中自动切换路线;播放音乐时,系统会通过摄像头捕捉驾驶者的微表情变化,结合语音情绪分析,判断他是否喜欢这首歌,甚至主动换歌。
“这套系统打破了固定指令的束缚,构建起一体化的人机交互与驾驶控制协同框架。”团队成员、北工大助理教授杨雅钰评价道。
稳准采摘机器能自主
在具身交互智能北京市重点实验室里,类似“很懂人”的智能机器人还有很多:仿人机器人能在楼宇、园区等复杂环境中自主导航,每隔0.05秒就能实时更新“导航地图”;多台智能交互轮式机器人可以组队作业,编队功能指令发送成功率、接收编队信息显示准确率以及协同控制准确率均达到100%;还有采摘机器人,哪串番茄熟了可以采摘?怎么摘不会伤藤蔓?它会像农民一样判断和思考。
记者在实验室里,就看到了一台正灵活穿梭在两排番茄串藤架间的采摘机器人。当它识别到一串成熟的番茄后,机械臂移动环形刀口从下往上精准地套住番茄串,微微倾斜,切割藤蔓,番茄就滚入了收集袋中,表面完好无损,不见丝毫机械痕迹。与此同时,机械臂已经找到了下一个采摘目标。
“机器人通过智能感知精准识别并锁定番茄的位置,自主设计采摘动作和角度,从识别成熟果实、定位果梗位置,到完成采摘动作,全程无需人工干预。”马楠揭秘。
机器人摘番茄,精度有多高?这里有一组数据:在一场连续自主采集测试中,采摘机器人顺利完成了100米垄间采摘工作,位姿识别准确率达91.25%,最高采摘成功率达92.85%,平均每串番茄的采摘时间仅需30秒。
采摘中的“稳准狠”,核心秘诀在机械臂前端:环形切割刀口负责精准断梗,后端连接着中空管道,让番茄平稳滚入收集袋。而这一整套精准而温柔的动作背后,藏着多项硬核科技——
在分析番茄外貌特征方面,团队采用多任务深度学习检测模型等机器人主动视觉感知技术,给机器人装上了一对“火眼金睛”,即便在密密麻麻的枝叶间,也能一眼认出哪串番茄熟没熟透、果子总共有多少;
在目标空间定位环节,机器人采用基于深度学习的三维关键点检测与位姿估计方法,实现对果梗与果实空间结构的精准感知,这就如同戴了三维透视眼镜,不仅能看清番茄枝的位置和形状,还能自主规划机械臂无碰撞作业轨迹,末端定位精度达5毫米。
细节处也有匠心:研发团队与企业深度合作,在采摘末端执行器设计中,创新性地在环形刀口上定制了钉状导向槽与精细锯片,让机器人能精准将番茄花梗导入槽中锯断,从根源上避免了“误伤”藤蔓的可能。
走向生活科技有温度
“具身智能”被视为人工智能领域的下一波浪潮,核心是让AI系统拥有对物理世界的感知、理解和交互能力,进化成能在真实环境中自主行动的智能体。2025年获批的具身交互智能北京市重点实验室,正是锚定这一方向设立的,致力于攻克具身智能领域的前沿核心技术难题,推动其在智能服务、应急救援、无人驾驶等领域的规模化应用。
实际上,从这间实验室里诞生的科研成果都有一个共同点:可交互、会学习、自成长。这也是马楠深耕机器智能交互研究的初心。
博士毕业后,马楠便加入了我国指挥自动化和人工智能专家、中国工程院院士李德毅团队,开展智能交互应用领域的研究。2013年,她又开始组建跨院校、校企联合的智能交互团队。也因此,当具身交互智能北京市重点实验室成立时,她当仁不让成了领衔人。
“我们琢磨如何让机器人更好地理解人的意图。换句话说,就是要教智能机器察言观色,更精准地理解与识别人的姿态、手势,甚至是一个眼神背后的意图。”在她眼中,智能交互研究就是要让机器有智商、有情商、更贴心、更懂“人情世故”。
依托团队在智能交互领域的长期探索,已有一些科研成果得以走出实验室、走向生产线。
比如,能“反思”的智驾系统已经在理想汽车新一代车型中开展试点应用验证。在她的设想中,随着技术迭代,未来的智能座舱将不再是冰冷的机器,而是能感知情绪、懂“人情世故”的具身智能出行伙伴:它可能会记住你喜欢的空调温度,在你加班晚归时自动调亮车内氛围灯,甚至能在感知到你情绪低落时播放一首你爱听的老歌。
面向未来,马楠说,实验室将继续聚焦以具身交互智能为核心的新一代人工智能发展方向,推动“交互认知+具身智能”深度融合,促进人工智能、机器人学与认知科学的跨学科融合。“我们要让AI跳出虚拟世界,在工厂、医院、家庭里真正用起来,让智能科技照进现实。”