7.6
深览指数
科技量子位··AI 生成
撸猫撸出SOTA!3个00后2个月,造出史上最快流式音视频社交模型
一家名为Catnip的10人中国初创团队,在2个月内由3名00后核心研究员开发出流式音视频模型MaineCoon(缅因猫)。该模型22B参数,在单张H100上实现47.5 FPS的业界最快推理速度,成本仅为Veo 3的1/2000。技术亮点在于首次提出并落地的“社交世界模型”框架,重点解决AI视频中的人物“活人感”与实时交互缺失问题。文章详细披露了其三层训练和推理架构,适合关注AI视频生成技术路线、极致工程效率以及下一代社交平台形态的深度读者。原文 ↗
核心观点
- ▍MaineCoon模型的核心创新在于首次将生成式AI的场景从物理模拟转向“社交交互”,通过实时流式生成和人物细节刻画,解决现有视频模型缺乏“活人感”、无法实时交互的行业缺口。
- ▍Catnip团队认为下一代社交平台的底层引擎将是“社交世界模型”,它以人为中心,包含感知、模拟、渲染三层,MaineCoon是渲染层的突破,旨在实现人类式连续、交错、多模态的实时双向交互。
- 01MaineCoon模型参数22B,在单张H100上推理速度达47.5 FPS,每秒推理成本最低可至0.00025美元,是Veo 3的1/2000、Seedance的1/560。
- 02模型可在RTX Pro 6000(成本为H100一半)上稳定保持30 FPS以上的实时运行速度,首帧出现时间在3秒以内。
- 03模型支持超过30分钟的连续生成,并在自建基准测试SocialVideo Bench上综合得分0.934,超过SoulX-FlashTalk等7款主流模型。
- 04训练阶段采用三层递进:自重采样解决推训鸿沟、流式表征对齐加速收敛、域感知偏好优化+强化在线策略蒸馏实现轻量精准。
- 05推理侧采用Agentic推理框架,由Director(叙事纠错)、Cache Manager(KV缓存管理)、Buffer Controller(播放节奏控制)三个独立控制器协作完成。
- 06团队仅用2个月、10k GPU小时和不到100万条数据完成全栈交付,整个研发过程高度AI Native。
- 07创始人杨姝瑞为连续创业者,在TikTok和PixVerse有产品经验;首席科学家谢泽柯为港科大(广州)助理教授,曾任职百度研究院。
反方 / 局限
- — 文章强调MaineCoon是“社交世界模型”的渲染层突破,但未提及前两层(感知层、模拟层)具体何时能落地,也回避了在缺乏感知能力的情况下,当前模型如何实现“理解用户情绪”这一核心目标。
- — 文章宣称的“活跃感”和“真人交互”效果高度依赖演示视频和自建基准测试,第三方独立验证和对比尚未充分开展。
MaineCoonCatnip社交世界模型Veo 3SeedanceSoulX-FlashTalkLTX红杉明势资本TikTokPixVerse百度研究院香港科技大学(广州)杨姝瑞谢泽柯SocialVideo BenchV-JEPA 2Agentic推理框架
14 分钟 · 3 卡片 · 6 资料
读原文 →