〈 笔者 : 中京大学 桥本 学* 〉
*大学院工学研究科 机械系统工程专业 教授
简介
近年来,随着AI技术的发展,AI 在各个领域的应用,特别是在机器人领域的应用和发展备受期待。智能机器人的应用领域主要包括生产车间、物流和配送中心以及普通家庭三个领域,但随着老龄少子化趋势的快速发展带来的劳动力供给不足,如图 1所示,机器人作为工厂作业人员的替代品,已成为产业界的紧迫课题。
用机器人代替人工作业并不简单,特别是针对难度较高的是组装作业,目前业界都是采用根据不同的部件设计的专用夹具,通过示教再现式机器人完成组装。由于机器人的示教再现作业需要操作者拥有专业的知识和丰富的经验,所以这一方式普及起来十分困难。虽然人们希望未来能够出现可以自由生成自己的动作的无指示机器人,但遗憾的是目前还处于过渡期,这样的智能机器人还没有实现。为了尽早将其实用化,如图 1所示,通过专业的动作教学可以初步实现半自动化,即通过 AI简化一部分人工机器人教学的想法将变得很重要。
另外,大众对于普通家庭的家用机器人也充满了期待。家用机器人需要识别、理解家庭中存在的多种多样的日用品和工具,并能够自由地使用。因此,仅仅依靠利用三维模型的物品功能推断和物品识别技术是远远不够的,需要出现能够生成机器人动作指令的新技术。
在上述背景下,本文将从物体的 “功能” 识别及其在机器人操纵中的应用角度出发,以笔者的研究为中心进行介绍。
首先,以茶会机器人的开发实例为基础,阐述功能识别这一新概念及其利用方法,之后,介绍将该技术应用于组装作业的动作指示的简单化的最新研究成果。

茶会机器人的难点和必要的识别技术
笔者为了评估各种机器人的视觉系统的综合实力,找出实用化的课题,试制了茶会机器人系统¹)。即如图2所示的双臂型机器人,可以进行一系列的泡茶动作,大约需要2分半钟就可以全自动执行。
该机器人的动作顺序如图 3所示。粗略地说就是 “放茶叶”→“倒热水”→“搅拌” 这3个任务的组合,如果考虑构成这些任务的详细子任务,就会发现需要相应的更复杂的步骤。其中,关于 “寻找○○” 这一子任务,如果用深层学习基础的识别手法识别对象物,利用三维模型应用点云基础的现有技术,就可以识别位置和姿势。但是考虑到 “用茶匙舀取茶叶” 这个子任务,这个动作并不是 所 谓 的Pick and Place,而 是 典 型 的Pick andOperation,实现起来非常困难。这是因为,即使通过图像处理安全地发现了茶匙,在之后的把持动作中,并不是简单地把持茶匙的 “某处” 就可以了,而是需要事先设想好 “把持后,用这个茶匙舀取茶叶,再放入茶碗”的情况下把持。此时,就需要一种新的识别技术,能够正确判断机器人抓住茶匙的哪里,在哪里舀取。

物体的“功能”识别及其在机器人操纵中的应用
如前章所述,为了实现机器人操作物品,需要知道该物品作为工具的使用目的,并生成实现目的的动作。针对这个课题,2015年,我们在国立研究开发法人新能源和产业技术综合开发机构(NEDO)的支持下,作为产业技术综合研究所和人工智能研究中心(AIRC)的再委托项目,进行了相关研究。以下是该项目的部分成果²)。


1.日用品具有的 “功能”
一般而言,日用品是为特定目的而设计制造的人造结构物,如 “运送液体”、“转移某物”。因此,多数情况下,部分形状具有与其目的相符的功能。图 4显示了几种常用日用品所具有的功能。例如,杯子具有较大的凹陷形状(“Contain” 功能),以实现储存运送水(液体)的目的,同时还具有环状的部分形状(“Grasp” 功能),设想人类将其捏住。另外,由于人可以 用 手 掌 抓 住 杯 身 部 分,因 此 我 们 认 为 它 具 有“Wrap-grasp” 功能。这种形状、功能、用途(动作)之间的密切关系,强烈地暗示了Gibson 提出的 “物体(环境)赋予人(动物)某种意义”的概念,即功能可见性(Affordance)³)⁴)。但是,Gibson 提出的功能可见性概念是以包括自然物在内的一般事物为对象的,而笔者设想的机器人的操作对象是 “工具” 这一目的性极高的人工构造物,因此本研究特意使用了 “功能(属性)” 这一用语。

2.基于机器学习的功能识别
作为识别对象功能的方法,我们提出了如图 5所示的以机器学习为基础的方法⁵)⁶)。我们认为对象的一部分形状具有各功能属性,我们构建了从拍摄对象的RGB-D数据中推断局部功能属性标签的机器学习系统。具体来说,以输入数据为基础,使用CNN和Random Forests为每个局部信息单位分配临时标签,之后通过实施全局最优化,减少了临时标签的错误,成功地赋予了最合适的功能标签。到目前为止,分别针对作为输入数据使用的RGB图像,D(深度)信息,作为局部信息单位使用的 “像素”,直径1cm左右的 “小领域”,以及作为机械学习方法使用的Random Forests,深层学习(CNN)几个方面进行了提案。现在,将RGB图像作为输入,用CNN赋予临时标签,也利用深度数据,通过dense CRF进行大范围最优化的方法,从而显示出最好的性能,但由于 “功能” 与局部形状密切相关,今后计划汇集到基于深度数据的方法中。实验结果如图 6所示。对杯子和刮刀(spatler)等提案方法的适用结果表明,在临时标签时,虽然偶尔会出现一些错误,但经过概率性的最优化,这些错误减少并得到了接近真值的标签结果。
3.功能信息的应用
作为功能信息在机器人操作中的应用实例,介绍了自动调整动作参数(手部移动量)⁷)。在茶会机器人中,需要“握住茶匙舀取茶枣(小茶罐,装有茶叶的小型容器)中的抹茶” 的动作。此时,如图 7所示,使用得到的两种 功能 标 签 “Grasp” 和 “Scoop”,计算属于 “Grasp”标签的三维点群的重心及其法向量,确定机械手的 “握住位置” 和接近方向。此外,测量 “Grasp” 标签的重心与 “Scoop” 标签的尖端位置之间的位移参数,并据此自动确定机器人接近枣时的移动量。 如图 8中展示的实验结果示例,我们准备了长度不同的5种茶匙,根据提案方法当场算出机器人动作参数,用茶匙舀取茶枣中的茶叶。图表中只显示了A、D、E这3种勺子的结果,但是可以确认,无论使用哪一种茶匙,尽管作为把持位置的机器人动作的起点是相同的,但茶匙前端没入茶枣时的前端位置(终点)的高度是一致的,根据提案方法,即使对于长度未知的勺子,也可以自动调整勺子前端位置和茶枣的相对关系。


组装自动化的应用8)9)
功能信息也可以用于工厂中机器人动作教学的简化。在许多工厂中,需要处理属于同一名称范畴的若干不同形状、不同尺寸的零部件的情形较多。例如齿轮、连接器、连杆等,即使品种不同,也具有大致相同的形状。但是,在工厂的装配线上,即使是这种形状上相似的部件,动作指示也大多是针对每个部件进行的,费时费力,效率很低。
这是笔者所提出的使用功能信息简化这项工作的方法⁸)⁹)。基本的想法如图 9所示。目的是对于属于某一类别的一个代表性部件A,将由人指导的机器人动作自动转移到其他类似部件B上。需要转移的动作参数有三个:握持点、作用点、机械手的移动轨迹,一般的装配作业中握持点和作用点这两个是很重要的信息,如果能够将这两个进行转移,那么关于移动轨迹就可以根据转移后的握持点和作用点的位置信息来生成。
为了这两个点的转移,利用功能信息。如图 9所示,首先以零件A和零件B的形状数据为基础,识别对象物的部分形状所具有的 “功能”。这时,预先想定出A和B的用途,如果是固定设计、制造的属于同一名称范畴的部件,即使尺寸和形状不同,也可以认为二者之间具有共通的局部形状。因此,如图 9所示,如果将包含把持位置的三维区域称为把持区域,将包含作用位置的区域称为作用区域,那么A和B中,把持区域和作用区域各自的区域在意义上应该是对应的。因此,通过利用这种对应,以指示元件上的把持位置和作用位置为基础,决定未知元件上的把持位置和作用位置。
如图 10中的实验结果示例,展示了根据提案方法从原来的部件对具有不同形状的其他部件转移把持点和作用 点 的 结 果。我 们 使 用 实 际 的 多 关 节 型 机 械 臂(Universal Robots公司制造的UR5)进行了连杆的插入实验,确认了采用提案的方法可以使任务成功率提高到77.1%。
结语
本稿中,说明了机器人所使用的物品具有 “功能”这一概念,并介绍了对其进行感应、识别的方法。并且,以得到的功能信息为基础,以茶会机器人为例,在说明将日用品作为工具处理时利用功能信息的方法的同时,介绍了将该技术应用于生产现场的装配作业的动作教示简单化的事例。目前为止,视觉和操作的研究领域大多被认为是相近但不同的领域,尽管以前就有人认识到对于这些领域的探索很重要,但领域间的交流并不充分。随着近年来深层学习相关技术的发展,End-to-end的范围不断扩大,通过视觉实现操作的最优化、通过操作帮助视觉实现最优化等方面,呈现出共同进化的态势。本文所介绍的功能识别库的动作生成就是其中的一个例子,虽然目前研究还只是初见端倪,但笔者自己也对其前景非常期待。
关于本文,希望能得到来自业界各方面的各种指正和建议。
参考文献
1)像人类一样使用工具的 AI 机器人~ 全自动茶会机器人 2020~;YouTube(2020)https://youtu.be/F4_Hb9YvWT4
2)桥本学,秋月秀一等:基于工具的 “功能” 识别的机器人任务生成支援的尝试,第 22 届图像的识别 · 理解研讨会(MIRU 2019),2019,pp.1-4
3)J.J.Gibson 著,古崎敬等译:生态学的视觉论,科学社(1985)
4)山野边夏树等:关于机器人操纵研究中功能可见性的评论,日本机器人学会杂志,Vol.36,No.5(2018),pp.327-337
5)饭冢正树,秋月秀一,桥本学:基于物体形状的 denseCRF 的功能属性识别的高精度化,电学论 C,Vol.138,No.9(2018),pp.1088-1093
6)M.Iizuka,M.Hashimoto:Semantic Grasping-Parameter using Part-Affordance Recognition,Proc.of 9th 国际会议(2018),pp.136-140
7)寺泽拓真等:基于日用品功能推定的机器人动作参数的自动生成,第 22 届图像识别 · 理解研讨会(MIRU 2019),PS2-57,2020,pp.1-4
8)Takahiro Suzuki, Manabu Hashimoto: A Method for Transferring Robot Motion Parameters Using Functional Attributes of Parts, Proc. of ISVC2021, Lecture
Notes in Computer Science(LNCS), Vol.13018 (2021), pp.154-165
9)铃木贵大等:为简化机器人示教的基于 “功能” 识别的动作转移方法,SI2020,2020,pp.1474-1475
出处:「机械设计」2022年4月号