Facial expression spotting is the preliminary step for micro- and macro-expression analysis. The task of reliably spotting such expressions in video sequences is currently unsolved. The current best systems depend upon optical flow methods to extract regional motion features, before categorisation of that motion into a specific class of facial movement. Optical flow is susceptible to drift error, which introduces a serious problem for motions with long-term dependencies, such as high frame-rate macro-expression. We propose a purely deep learning solution which, rather than tracking frame differential motion, compares via a convolutional model, each frame with two temporally local reference frames. Reference frames are sampled according to calculated micro- and macro-expression duration. As baseline for MEGC2021 using leave-one-subject-out evaluation method, we show that our solution achieves F1-score of 0.105 in a high frame-rate (200 fps) SAMM long videos dataset (SAMM-LV) and is competitive in a low frame-rate (30 fps) (CAS(ME)2) dataset. On unseen MEGC2022 challenge dataset, the baseline results are 0.1176 on SAMM Challenge dataset, 0.1739 on CAS(ME)3 and overall performance of 0.1531 on both dataset.
翻译:显性表达色是微观和宏观表达式分析的初步步骤。 在视频序列中可靠地检测这些表达方式的任务目前尚未解决。 当前的最佳系统取决于光学流动方法, 以提取区域运动特征, 然后再将该运动分为特定的面部运动类别。 光学流动容易发生漂移错误, 这给长期依赖的运动带来严重的问题, 如高框架速率宏观表达式等 。 我们提出了一个纯粹深层次的学习解决方案, 而不是跟踪框架差异运动, 通过一个具有两个时间性地方参照框架的卷进模型, 每个框架都具有两个时间性参考框架。 参照框架是按计算出的微和宏观表达时间长度来抽样的。 作为MIGC2021 的基准, 使用离子单向外运动的评估方法,我们显示我们的解决方案在高框架率( 200英尺) SAMM-LV) 长视频数据集(SAMM-LV) 和 SAGC2022 总体性能数据集于0.176, SAGCCS- 和SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA- SA SA- SA- SA- s SA- SA SA- SA- SA- SA- SA SA SA- SA- SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA SA