EmotiW2018国际大赛夺冠解析思图场景情感识别算法

　　2018年10月20日,由国际计算机协会ACM ICMI 2018举办的第六届EmotiW2018视频情感识别大赛在美国科罗拉多进行了项授予。

　　思图场景AI团队在百余支世界顶尖研究机构与院校成绩比拼中脱颖而出，获得了音视频短片情绪分类挑战赛冠军杯。本次大赛，思图场景在EmotiW2018的视频情绪分类挑战赛中获得第一名，情绪识别分类准确率比2017年冠军Intel Lab高1.53%。

　　在此次国际大赛中，思图场景充分用成绩证明了“以应用场景为基础的研发模式”在人工智能技术发展方面的创新性及有效性，为人工智能技术在应用领域的发展提供了思。

　　思图场景情感识别算法采用多种特征融合的方式对视频进行了分类，显著提升了情绪识别的准确率，其整体结构如下：

　　其算法主要涉及到4个模块，分别是卷积神经网络(CNN)、长短期记忆网络(LSTM)、人脸关键点几何特征和声音特征。这四个不同的特征模块，了算法可以学习到视频的多方信息。

　　CNN和LSTM是两个比较流行的处理视频情绪的方法，他们需要依靠大量的数据支撑，思图场景凭借在情感计算中积累的数据库进行深度学习模型预训练。在不同深度学习网络中，视频单帧人脸情绪识别准确率为：

　　运用人脸图片预训练的深度学习模型，进行时视频情绪分类的结构如下，其中具体用到了两种方式对提取的CNN特征进行归一化：

　　除此之外，思图场景还运用了工程上经过验证的方法：关键点欧式距离，该方法提取了一些人脸的高级特征，运用关键点的几何变化来预测情绪变化。该方法可靠高效，并且不需额外数据集训练，对结果有很大影响。其程序为：人脸3D关键点检测，3D特征提取，取平均值，剧雪老公标准差和最大值，SVM分类器的训练。具体流程如下：

　　这表明，思图场景自身的算法及海量数据集对视频情感分类的效果提升明显，尤其是在判断开心、生气和中性非常明显，其可靠类别的分类情况已经达到商用落地的水平，可在一定应用下更真实的“体会”用户的意图，进而促进视觉理解、人机交互技术在场景应用层面的发展。

EmotiW2018国际大赛夺冠 解析思图场景情感识别算法

EmotiW2018国际大赛夺冠解析思图场景情感识别算法