作者

Feng Mao

思路

提取CNN和C3D特征作为帧特征,使用average pooling 和 LSTM 将帧特征聚集为视频特征,使用MoE进行分类
CNN_C3D_averagePooling_LSTM_MoEcd

特征提取

CNN:使用数据集ImageNet 21k 训练模型inception-v1 。在分类层POOL5/7X7YS1,选择分类层之前的那一个hidden层作为帧级特征第一部分。
C3D:使用PCA降维

特征聚合

无监督 average pooling
有监督 aggregation LSTM

分类

MoE(Mixture of experts) ,结合不同特征和不同聚合模型:

  • CNN + average pooling
  • CNN + LSTM
  • C3D + average pooling
  • C3D + LSTM

需要训练的参数是CNN and C3D 的LSTM参数和 MoE parameters

Comments

⬆︎TOP