人脸识别被识别为三次元,但对二次元无效。迪斯尼的技术小组正在开发这个算法,以帮助动画制作者进行后期搜索。
数字内容库的第一步,是检测和标记过去作品中的内容,方便制作者和用户查找。
面部识别技术已经比较成熟,但是,同样的方法,能不能用在动画中的人脸识别呢?
经过技术小组的实验,发现只有在某些情况下是可行的。
电影《阿瓦勒公主埃琳娜》和《小狮王守护队》都是他们手工注释的两部动画作品,在几百帧的影片中用方框标记出面孔。使用这个手动注释数据集,研究小组验证了基于人脸识别技术的动画脸(特别是类脸和动物脸)表现不佳。
经过研究小组的分析确认,像HOG+SVM之类的方法对颜色、亮度或者纹理变化具有鲁棒性,但是所使用的模型只能与人类比例的动画角色(即两只眼睛、一个鼻子和一个嘴巴)相匹配。
另外,由于动画内容的背景往往是扁平的,细节较少,因此,该模型错误地将所有在简单背景下突出出来的东西视为动画脸。
在《汽车总动员》中,两位「赛车」主角更为抽象化的脸,无法用传统的人脸识别技术来检测和识别。
所以研究小组认为他们需要一种技术来学习更为抽象的人脸概念。
这个小组选择了PyTorch训练模型。通过PyTorch,他们可以获得最先进的预训练模型,满足他们的训练需要,使存档过程更加高效。
培训期间,团队发现数据集中、正样充足,但缺乏足够的负样本进行模型训练。它们决定使用不含动画面孔的其他图片,但是具有动画特征的图片来增加初始数据集。
为了达到这个目的,他们扩展了Faster-RCNN实现,以便在训练期间不需要注释就可以装载负样本。