m6米乐主页·哥伦比亚大学华人开发「人脸机器人」照镜子自主模仿人

来源:m6米乐网页版 作者:m6米乐平台网址

发布时间:2024-11-23 09:31:46

  OpenAI 机器人理解力虽强,却无法进行非语言交流。最近,哥伦比亚大学华人团队打造了全新的机器人 Emo,不仅可以提前预测和模拟人类表情,还可以进行眼神交流。

  随着 ChatGPT 横空出世,得到加持的人形机器人虽擅长语言交流,但是在非语言交流,特别是面部表情,还差得很远。

  未来,如果人类真的要生活在一个充满机器人的世界之中,机器人必须要有像人类一样能自主通过面部表情获取人类的信任的能力。

  此外,研究小组还开发了两个人工智能模型:一个是通过分析目标面部的细微变化来预测人类的面部表情,另一个使用相应的面部表情生成运动指令。

  这项研究主要作者 Yuhang Hu 表示,「我认为,准确预测人类面部表情是人机交互(HRI)的一场。传统上,机器人的设计并不考虑人类在交互过程中的表情」。

  「现在,机器人可以整合人类的面部表情作为反馈。当机器人与人实时进行共同表达时,不仅提高了交互质量,还有助于在人类和机器人之间建立信任。未来,在与机器人互动时,它会像真人一样,观察和解读你的面部表情」。

  (1 和 2) 用磁铁连接的连杆控制眉毛。(3) 上眼睑。(4) 下眼睑。(5) 眼球连杆。(6) 眼球框架。(7) 相机

  Emo 设计的主要区别之一是使用直接连接的磁铁来使可更换的面部皮肤变形。这种方法可以更精确地控制面部表情。

  这些高分辨率的 RGB(红、绿、蓝)摄像头,每只眼睛的瞳孔内都有一个,增强了机器人与环境互动的能力,并能更好地预测对话者的面部表情。

  每个眼框都装有一个高分辨率 RGB 摄像头。眼框分别由两个电机通过平行四边形机构在俯仰和偏航两个轴上驱动。

  这种设计的优点是在眼框中央创造了更多空间,使研究人员能够将摄像头模块安装在与人类瞳孔相对应的自然位置。

  除了这些硬件升级外,研究人员还引入了一个由两个神经网络组成的学习框架 —— 一个用于预测 Emo 自身的面部表情(自我模型),另一个用于预测对话者的面部表情(对话者模型)。

  研究人员还提出了一个升级版逆向模型,可使机器人在相同的计算硬件上生成电机指令的速度比上一代产品快五倍以上。

  他们提出了一种自我监督学习过程,以训练研究人员的面部机器人在没有明确的动作编排和人类标签的情况下生类面部表情。

  机器人有柔软的可变形皮肤和几个带有四个套筒关节的被动机构,因此很难获得机器人运动学的运动方程。

  研究人员利用基于视觉的自我监督学习方法克服了这一难题,在这种方法中,机器人可以通过观察镜子中的自己来学习运动指令与所产生的面部表情之间的关系。

  面部反演模型是利用机器人自身生成的数据集(下图)进行训练的,其中包括电机指令和由此产生的面部地标。

  研究人员以自我监督的方式,通过随机的 「电机咿呀学语 」过程收集数据。在将指令发送到之前,该过程会自动删除可能会撕裂面部皮肤或导致自碰撞的电机指令。

  在伺服电机到达指令定义的目标位置后,研究人员使用 RGB 摄像头捕捉机器人的面部图像,并提取机器人的面部地标。

  为此,研究人员开发了一个预测面部表情模型,并使用人类表情视频数据集对其进行了训练。该模型能够根据一个人面部的初始和细微变化,预测其将要做出的目标表情。

  首先,研究人员使用每组面部地标与每个视频中初始(「静止」)面部表情的面部地标之间的欧氏距离来量化面部表情动态。

  研究人员将静止面部地标定义为前五帧的平均地标,目标面部地标则定义为与静止面部地标差异最大的地标。

  数据集共包含 45 名人类参与者和 970 个视频。其中 80% 的数据用于训练模型,其余数据用于验证。

  研究人员对整个数据集进行了分析,得出人类通常做出面部表情所需的平均时间为 0.841 ± 0.713 秒。

  预测模型和逆向模型(仅指研究人员论文中使用的神经网络模型的处理速度)在不带 GPU 设备的 MacBook Pro 2019 上的运行速度分别约为每秒 650 帧(fps)和 8000 帧(fps)。

  研究人员的机器人可以 0.002 秒内成功预测目标人类面部表情并生成相应的电机指令。这一时间留给捕捉面部地标和执行电机指令以在实体机器人面部生成目标面部表情的时间约为 0.839 秒。

  第二条基线是模仿基线,它选择激活峰值处的面部地标作为预测地标。如果激活峰值接近目标脸部,那么该基线与研究人员的方法相比就很有竞争力。

  然而,实验结果表明,研究人员的方法优于这一基线,表明预测模型通过归纳面部的细微变化,而不是简单地复制最后输入帧中的面部表情,成功地学会了预测未来的目标面部。

  研究人员计算了预测地标与地面实况地标之间的平均绝对误差,地面实况地标由维度为 113×2 的人类目标面部地标组成。

  表格结果(表 S2)表明,研究人员的方法优于两种基线方法,表现出更小的平均误差和更小的标准误差。

  有了能够模拟预测人类表情的能力之后,Emo 研究的下一步便是将语言交流整合到其中,比如接入 ChatGPT 这样的大模型。

  研究人员表示,通过发展能够准确解读和模仿人类表情的机器人,我们正在向机器人可以无缝地融入我们的日常生活的未来更近一步,为人类提供陪伴、帮助。

  广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。


m6米乐主页 上一篇:文生、文生音乐、单次处理200万字2024年A 下一篇:福利!制作人:《AI:梦境档案》有很多可爱场景
新闻资讯 m6米乐主页

版权所有:m6米乐主页网页版(M6·中国)m6米乐平台网址 Copyright @ 2016 All rights reserved.

客服热线:400-8570288