-
慢速路径:低帧率提取特征,同时尽可能多地保留空间细节(例如每 8 帧保留 24×24 个 token) -
快速路径:高帧率运行,但用较大的空间池化步长降低视频的分辨率,以模拟更大的时间上下文,更专注于理解动作的连贯性
的帧特征,其中
。
,其中
,
。慢速路径的整个过程如公式 2 所示。
对 F_v 进行激进的下采样,得到最终特征
。研究团队设置
、
,使得快速路径能专注于模拟时间上下文和运动线索。慢速路径的整个过程如公式 3 所示。
,其中 flat 和 [, ] 分别表示展平和连接操作。如表达式所示,
不需要任何特殊的 token 来分隔慢速和快速路径。SF-LLaVA 总共使用
个视频 token。视频的视觉特征
将和文本信息(比如用户提出的问题)将被组合在一起,作为输入数据送入大型语言模型(LLM)进行处理。
粤ICP备2024279727