
FluxMem论文笔记
论文提出了 FluxMem,一个用于高效流式视频理解的无训练框架。FluxMem 通过一个分层的两阶段设计自适应地压缩冗余的视觉记忆:(1) 时间邻近选择(TAS)模块移除相邻帧之间冗余的视觉 token,以及 (2) 空间域合并(SDC)模块将每帧内空间上重复的区域进一步合并为紧凑的表示。为了有效适应动态场景,我们在 TAS 和 SDC 中都引入了一个自适应 token 压缩机制,该机制能根据内在场景统计数据自动确定压缩率,而非手动调整。广泛的实验表明,FluxMem 在现有在线视频基准上取得了新的最先进成果,在实时设置下,在 StreamingBench 上达到 76.4,在 OVO-Bench 上达到 67.2,同时将 OVO-Bench 上的延迟降低了 69.9%,峰值 GPU 内存减少了 34.5%。此外,它还保持了强大的离线性能,在 MLVU 上实现了 73.1 的准确率,同时使用了少 65% 的视觉 token。
















