撸猫撸出SOTA！3个00后2个月，造出史上最快流式音视频社交模型

7.6

深览指数

科技量子位·4小时前·AI 生成

撸猫撸出SOTA！3个00后2个月，造出史上最快流式音视频社交模型

一家名为Catnip的10人中国初创团队，在2个月内由3名00后核心研究员开发出流式音视频模型MaineCoon（缅因猫）。该模型22B参数，在单张H100上实现47.5 FPS的业界最快推理速度，成本仅为Veo 3的1/2000。技术亮点在于首次提出并落地的“社交世界模型”框架，重点解决AI视频中的人物“活人感”与实时交互缺失问题。文章详细披露了其三层训练和推理架构，适合关注AI视频生成技术路线、极致工程效率以及下一代社交平台形态的深度读者。原文 ↗原文 ↗

核心观点

▍MaineCoon模型的核心创新在于首次将生成式AI的场景从物理模拟转向“社交交互”，通过实时流式生成和人物细节刻画，解决现有视频模型缺乏“活人感”、无法实时交互的行业缺口。
▍Catnip团队认为下一代社交平台的底层引擎将是“社交世界模型”，它以人为中心，包含感知、模拟、渲染三层，MaineCoon是渲染层的突破，旨在实现人类式连续、交错、多模态的实时双向交互。

01MaineCoon模型参数22B，在单张H100上推理速度达47.5 FPS，每秒推理成本最低可至0.00025美元，是Veo 3的1/2000、Seedance的1/560。
02模型可在RTX Pro 6000（成本为H100一半）上稳定保持30 FPS以上的实时运行速度，首帧出现时间在3秒以内。
03模型支持超过30分钟的连续生成，并在自建基准测试SocialVideo Bench上综合得分0.934，超过SoulX-FlashTalk等7款主流模型。
04训练阶段采用三层递进：自重采样解决推训鸿沟、流式表征对齐加速收敛、域感知偏好优化+强化在线策略蒸馏实现轻量精准。
05推理侧采用Agentic推理框架，由Director（叙事纠错）、Cache Manager（KV缓存管理）、Buffer Controller（播放节奏控制）三个独立控制器协作完成。
06团队仅用2个月、10k GPU小时和不到100万条数据完成全栈交付，整个研发过程高度AI Native。
07创始人杨姝瑞为连续创业者，在TikTok和PixVerse有产品经验；首席科学家谢泽柯为港科大(广州)助理教授，曾任职百度研究院。

反方 / 局限

— 文章强调MaineCoon是“社交世界模型”的渲染层突破，但未提及前两层（感知层、模拟层）具体何时能落地，也回避了在缺乏感知能力的情况下，当前模型如何实现“理解用户情绪”这一核心目标。
— 文章宣称的“活跃感”和“真人交互”效果高度依赖演示视频和自建基准测试，第三方独立验证和对比尚未充分开展。

MaineCoonCatnip社交世界模型Veo 3SeedanceSoulX-FlashTalkLTX红杉明势资本TikTokPixVerse百度研究院香港科技大学（广州）杨姝瑞谢泽柯SocialVideo BenchV-JEPA 2Agentic推理框架

14 分钟 · 3 卡片 · 6 资料

读原文 →

撸猫撸出SOTA！3个00后2个月，造出史上最快流式音视频社交模型

前置背景

平行视角

延伸追问