RooKie_Z的生活札记
🏷️ Tags
💻 Profile
profile_image
RooKie_Z
Just a RooKie in Computer Science
A undergraduate student majoring in Computer Science at BUAA.
🔎 Search
📂 All Posts
🤖 Computer Science
Streamo论文笔记

Streamo论文笔记

2025年12月30日

Streamo论文笔记 Streamo的指标其实不是很高,但是它对于流式模型范式的界定很有意思,值得参考,同时它设计三种token来解决流式场景中的主动响应问题,很有新意,有一定参考价值。论文提出的Streamo-Instruct-465K数据集数据量大,任务丰富,或许未来有能够用到的地方。

Note
BenchMark
Stream
SFT
🤖 Computer Science
TeleEgo论文笔记

TeleEgo论文笔记

2025年12月26日

TeleEgo的研究目标与我当前的IDEA可以说完全契合,也不知道这是幸或不幸。对于数据采集,TeleEgo有着一套完备闭环的pipeline,可以适配他目标Benchmark的核心任务。TeleEgo的评测逻辑也值得学习,如何限制模型必须在“流式”模式下接受测试?如何进行“流式”的多轮问答?如何对于这些指标进行消融实验与内在机理分析?TeleEgo提供了一套周密严谨的解决方案,虽然有过于严苛之嫌,但绝对值得参考。TeleEgo提出的两个指标——RTA和MPT也具有非常强的参考价值和实际意义,对于可穿戴AI设备和一些具身智能场景,也许RTA和MPT这两个指标就是未来的“生死线”。

Egocentric
Note
BenchMark
Multi-Run
Stream
🤖 Computer Science
SCVBench论文笔记

SCVBench论文笔记

2025年12月24日

简单总结 主要贡献 论文在视频理解领域做出了具有开创性的三点贡献: 1. 重新定义问题范式: 从单纯的“识别”转向“逻辑排序”。将事件排序 (Event Ordering) 作为核心评估任务,精准打击了现有模型在因果推理上的软肋。这一范式的转变迫使模型必须理解视频的“时间箭头”和逻辑链条,而不仅仅是识别帧内容。 2. 高质量基准建设: 相比于纯自动化生成的低质量数据集,SCVBench 引入了多轮对话 (Multi-turn Dialogues) 和半自动化人工清洗流程,构建了一个真正考察“渐进式理解”能力的高质量测试床。 3. 揭示“感知-推理”瓶颈: 通过 StoryCoT 的消融实验,定量地证明了当前大模型在视频理解上的短板并非逻辑推理能力不足,而是细粒度事件提取能力(感知层)的缺失。这一发现为后续研究指明了“回归感知优化”的方向。 Solidness • 数据清洗严谨: 论文没有止步于 GPT-4 生成数据,而是专门开发了 Streamlit 工具进行人工清洗剔除了1,487 个低质量样本。 • 消融实验设计有趣: PQA + Sub-GT 的设计非常有趣。大多数 Benchmark 论文只负责跑分,而 SCVBench 通过引入“完美感知的子问题答案”,成功解耦了感知能力与推理能力,进行了Benchmark结果的归因分析。

Note
BenchMark
Story-centric
🤖 Computer Science
Qwen2.5-VL-7B课堂笔记技术报告

🔒 Qwen2.5-VL-7B课堂笔记技术报告

2025年12月23日

Report
AI_Note
🤖 Computer Science
SVBench论文笔记

SVBench论文笔记

2025年12月21日

“流式输入 + 多轮对话 + 长视频 + 开放域” • SVBench 是我目前找到唯一同时满足**“流式输入 + 多轮对话 + 长视频 + 开放域”**四个条件的基准。它定义的 Temporal Linkage 为衡量“流式记忆”提供了一个可量化的标准,这可能会成为未来 VideoLLM 研究的标准度量衡。 未来启发 • Skill Analysis中明确指出了当前模型的死穴:反事实推理 (Counterfactual Reasoning)。这暗示了未来的研究方向不应再卷“感知”能力(识别物体),而应转向“认知”能力(因果推断、世界模型)。

Note
BenchMark
Stream
Multi-Run
🤖 Computer Science
VideoMem论文笔记

VideoMem论文笔记

2025年12月18日

总体而言VideoMem是一篇非常有趣的论文,他虽然着眼于长视频,但是不仅提到了Ego-R1作为其参考范式之一,还针对流式处理的问题做了非常多的研究。 这也回应了我近些天的疑问,流式处理和长视频理解实际上是非常相似但又存在主要问题不同的两个场景,他们都需要处理爆炸的KV-Cache,但是针对视频的处理,对首Token输出速度的要求,是否能参考后续视频内容有所不同。实际上VideoMem训练出的最终模型完全有作为处理流式视频理解模型的潜力,甚至可以直接使用,对我很有启发。

Note
Long Video
Stream
📗 Docs
test password

🔒 test password

2025年12月17日

Just a password test.

Docs
🤖 Computer Science
VideoTree论文笔记

VideoTree论文笔记

2025年12月9日

VideoTree论文笔记 From Passive Viewing to Active Searching VideoTree 的最大贡献在于它彻底改变了视频理解的底层逻辑。 • 传统逻辑 (LLoVi 等): 试图“看尽”所有帧。这是一种被动的、无差别的接收方式。在长视频场景下,这不仅效率低下,而且容易被噪声淹没。 • VideoTree 逻辑: 模仿人类的“主动搜索”机制。它不试图看完所有内容,而是基于 Query 主动去寻找线索。这种检索增强生成 (RAG) for Video 的思路,将视频理解问题转化为了一个搜索规划问题。 模块化设计的的优势 • 可解释性 (Interpretability): 相比于黑盒的 End-to-End Video LLM,VideoTree 的树状结构提供了清晰的推理轨迹 (Reasoning Trace)。我们可以清楚地看到模型选择了哪些帧作为依据,剪枝了哪些帧。这对于医疗、监控等高风险领域的应用至关重要。

Blog
VLM
Stream
Training-Free
Note
🤖 Computer Science
LVAgent论文笔记

LVAgent论文笔记

2025年12月9日

LVAgent论文笔记

Blog
Stream
VLM
Agent
Note
🤖 Computer Science
StreamingVLM论文笔记

StreamingVLM论文笔记

2025年12月8日

StreamingVLM论文笔记

Blog
VLM
Stream
Note
SFT
🤖 Computer Science
StreamTOM论文笔记

StreamTOM论文笔记

2025年12月8日

StreamTOM论文笔记

Blog
VLM
Stream
Training-Free
Note
🤖 Computer Science
StreamBridge论文笔记

StreamBridge论文笔记

2025年12月8日

我认为StreamBridge工程上比上一篇StreamingVLM可行性更强,考虑到StreamingVLM需要全参数微调,而且所需计算资源过大,不仅有可能破坏模型针对特定场景微调后的参数分布,更有可能过犹不及,反倒使模型性能下降。因此,Adapter或者Training-Free之类的方法就更值得我们关注。 StreamBridge论文中采用Qwen2-VL作为基座模型,符合我们的要求,因此选取这篇论文作为可行方案之一予以测试。

Blog
VLM
Stream
Adapter
Note
🤖 Computer Science
现有第一人称流式输入视频理解调研

现有第一人称流式输入视频理解调研

2025年12月1日

现有第一人称流式输入视频理解调研

Blog
Egocentric
Report
📜 Essay
哲思随笔——《黑客帝国》随想录

哲思随笔——《黑客帝国》随想录

2025年11月30日

《黑客帝国》(The Matrix)诞生于上个世纪末,那是一个特殊的时刻。互联网刚刚兴起,人类站在千禧年的门槛上,对数字化未来既充满无限憧憬,又怀揣着深层的不安。沃卓斯基兄弟敏锐地捕捉到了这种时代情绪,将其凝固为一部跨越时代的影像史诗。 如今二十多年过去,当我们在屏幕的荧光中回望这部作品,它不再仅仅是一部让人肾上腺素飙升的科幻动作片,更像是一则关于现代人生存境遇的深沉寓言,一本用胶片和代码写就的哲学导论。 💭这篇随笔,并非为了从学术角度去肢解电影的文本,也不是为了堆砌那些晦涩的术语来显示高深。我试图借由尼奥(Neo)的旅程,去触碰我们每个人心底那个关于"存在"的疑问。 在这个被代码、算法、大数据和庞大系统层层包裹的时代,在这个我们越来越像"终端"而非"开端"的时代,我们该如何确认自己不仅是一串数据,不仅是一个零件,而是一个有着温热灵魂的人? 本文将尝试在一种平和的思辨中,穿梭于虚幻与真实、身体与心灵、宿命与自由之间。我们所探讨的,不仅仅是电影中的救世主如何诞生,更是每一个身处技术时代的普通人,如何在这个数字荒原中,重新找回属于自己的尊严与自由。

Daily
Movie
Essay
🤖 Computer Science
Ego-R1论文学习借鉴

Ego-R1论文学习借鉴

2025年11月27日

虽然Ego-R1 由于前期标注数据量过大,达到了惊人的512G,但是我们可以从中学习一些数据清洗和COTT(Chain-of-Tool-Thought) QA对构建的手法来供自己使用

Egocentric
Note
🤖 Computer Science
Denoising Diffusion Probabilistic Models DDPM 笔记——DDPM = 拆楼 + 建楼

Denoising Diffusion Probabilistic Models DDPM 笔记——DDPM = 拆楼 + 建楼

2025年11月6日

Denoising Diffusion Probabilistic Models DDPM 笔记——DDPM = 拆楼 + 建楼

Diffusion
DDPM
Blog
🧳 Travel
RooKie_Z的青岛游记 Day 1️⃣

RooKie_Z的青岛游记 Day 1️⃣

2025年11月2日

RooKie_Z的青岛游记Day 1️⃣

Daily
Travel
Qingdao
Journal
💻 Profile
RooKie_Z
Just a RooKie in Computer Science
A undergraduate student majoring in Computer Science at BUAA.
🌟 Service
💬 Contact
github
email