RooKie_Z的生活札记

🏷️ Tags

Note BenchMark Stream SFT Egocentric Multi-Run Story-centric Report AI_Note Long Video Docs Blog VLM Training-Free Agent Adapter Daily Movie Essay Diffusion DDPM Travel Qingdao Journal

💻 Profile

RooKie_Z

Just a RooKie in Computer Science

A undergraduate student majoring in Computer Science at BUAA.

🔎 Search

🏷️ Tags

📂 All Posts

Desc Asc

🤖 Computer Science

Streamo论文笔记

2025年12月30日

Streamo论文笔记 Streamo的指标其实不是很高，但是它对于流式模型范式的界定很有意思，值得参考，同时它设计三种token来解决流式场景中的主动响应问题，很有新意，有一定参考价值。论文提出的Streamo-Instruct-465K数据集数据量大，任务丰富，或许未来有能够用到的地方。

TeleEgo论文笔记

2025年12月26日

TeleEgo的研究目标与我当前的IDEA可以说完全契合，也不知道这是幸或不幸。对于数据采集，TeleEgo有着一套完备闭环的pipeline，可以适配他目标Benchmark的核心任务。TeleEgo的评测逻辑也值得学习，如何限制模型必须在“流式”模式下接受测试？如何进行“流式”的多轮问答？如何对于这些指标进行消融实验与内在机理分析？TeleEgo提供了一套周密严谨的解决方案，虽然有过于严苛之嫌，但绝对值得参考。TeleEgo提出的两个指标——RTA和MPT也具有非常强的参考价值和实际意义，对于可穿戴AI设备和一些具身智能场景，也许RTA和MPT这两个指标就是未来的“生死线”。

SCVBench论文笔记

2025年12月24日

简单总结主要贡献论文在视频理解领域做出了具有开创性的三点贡献： 1. 重新定义问题范式：从单纯的“识别”转向“逻辑排序”。将事件排序 (Event Ordering) 作为核心评估任务，精准打击了现有模型在因果推理上的软肋。这一范式的转变迫使模型必须理解视频的“时间箭头”和逻辑链条，而不仅仅是识别帧内容。 2. 高质量基准建设：相比于纯自动化生成的低质量数据集，SCVBench 引入了多轮对话 (Multi-turn Dialogues) 和半自动化人工清洗流程，构建了一个真正考察“渐进式理解”能力的高质量测试床。 3. 揭示“感知-推理”瓶颈：通过 StoryCoT 的消融实验，定量地证明了当前大模型在视频理解上的短板并非逻辑推理能力不足，而是细粒度事件提取能力（感知层）的缺失。这一发现为后续研究指明了“回归感知优化”的方向。 Solidness • 数据清洗严谨：论文没有止步于 GPT-4 生成数据，而是专门开发了 Streamlit 工具进行人工清洗剔除了1,487 个低质量样本。 • 消融实验设计有趣： PQA + Sub-GT 的设计非常有趣。大多数 Benchmark 论文只负责跑分，而 SCVBench 通过引入“完美感知的子问题答案”，成功解耦了感知能力与推理能力，进行了Benchmark结果的归因分析。

🔒 Qwen2.5-VL-7B课堂笔记技术报告

SVBench论文笔记

2025年12月21日

“流式输入 + 多轮对话 + 长视频 + 开放域” • SVBench 是我目前找到唯一同时满足**“流式输入 + 多轮对话 + 长视频 + 开放域”**四个条件的基准。它定义的 Temporal Linkage 为衡量“流式记忆”提供了一个可量化的标准，这可能会成为未来 VideoLLM 研究的标准度量衡。未来启发 • Skill Analysis中明确指出了当前模型的死穴：反事实推理 (Counterfactual Reasoning)。这暗示了未来的研究方向不应再卷“感知”能力（识别物体），而应转向“认知”能力（因果推断、世界模型）。

VideoMem论文笔记

2025年12月18日

总体而言VideoMem是一篇非常有趣的论文，他虽然着眼于长视频，但是不仅提到了Ego-R1作为其参考范式之一，还针对流式处理的问题做了非常多的研究。这也回应了我近些天的疑问，流式处理和长视频理解实际上是非常相似但又存在主要问题不同的两个场景，他们都需要处理爆炸的KV-Cache，但是针对视频的处理，对首Token输出速度的要求，是否能参考后续视频内容有所不同。实际上VideoMem训练出的最终模型完全有作为处理流式视频理解模型的潜力，甚至可以直接使用，对我很有启发。

哲思随笔——《黑客帝国》随想录

2025年11月30日

《黑客帝国》（The Matrix）诞生于上个世纪末，那是一个特殊的时刻。互联网刚刚兴起,人类站在千禧年的门槛上,对数字化未来既充满无限憧憬,又怀揣着深层的不安。沃卓斯基兄弟敏锐地捕捉到了这种时代情绪,将其凝固为一部跨越时代的影像史诗。如今二十多年过去,当我们在屏幕的荧光中回望这部作品,它不再仅仅是一部让人肾上腺素飙升的科幻动作片,更像是一则关于现代人生存境遇的深沉寓言,一本用胶片和代码写就的哲学导论。 💭这篇随笔,并非为了从学术角度去肢解电影的文本,也不是为了堆砌那些晦涩的术语来显示高深。我试图借由尼奥（Neo）的旅程,去触碰我们每个人心底那个关于"存在"的疑问。在这个被代码、算法、大数据和庞大系统层层包裹的时代,在这个我们越来越像"终端"而非"开端"的时代,我们该如何确认自己不仅是一串数据,不仅是一个零件,而是一个有着温热灵魂的人? 本文将尝试在一种平和的思辨中,穿梭于虚幻与真实、身体与心灵、宿命与自由之间。我们所探讨的,不仅仅是电影中的救世主如何诞生,更是每一个身处技术时代的普通人,如何在这个数字荒原中,重新找回属于自己的尊严与自由。