金融AI武道大会开赛！四道业务真题，出题人：猜不到最优解

6.3

深览指数

商业量子位·1小时前·AI 生成

金融AI武道大会开赛！四道业务真题，出题人：猜不到最优解

文章报道了 AFAC2026 金融智能创新大赛的四道赛题，分别聚焦市场交易行为识别、复杂金融文档还原、稀疏反馈下的自动化实验和金融长文本 Agent 问答。核心论点是大模型在金融垂直场景落地困难，本质是 Agent 工程问题而非参数 Scaling，需要研究者具备对业务约束的尊重和工程品味。适合关注 AI 产业落地、金融科技和 Agent 工程的读者阅读。原文 ↗原文 ↗

核心观点

▍金融垂直场景中，大模型落地困难的核心不是参数 Scaling，而是 Agent 层面的工程问题，需要可复现的洞见和对业务约束的尊重。

01保险文档还原 Markdown 任务中，一旦涉及大图片、大文档，模型在 Benchmark 上的平均分掉到 0.1 以下，GPT、Gemini 等前沿多模态模型也表现不佳。
02金融文档（如保险单）包含多级标题、密集表格、脚注和批注，且阅读顺序对语义至关重要，普通OCR无法处理，大模型在超大图输入时窗口会爆掉。
03赛题三（稀疏反馈自动化实验）中，清华大学姚权铭指出金融图学习的搜索空间缺乏连贯语义，通用模型的语言先验难以发挥作用，3B 参数的专业模型可能优于昂贵 API。
04赛题四（金融长文本问答）将 Token 消耗纳入评测维度，因为金融机构面对海量文档，日/月级调用量的账单会极其高昂。
05蚂蚁集团副总裁尹俊表示，金融+AI 的具体形态有待摸索，价值尚未被充分证明，合规和风险控制要求高，且存在经营压力。
06AFAC 大赛 2023 年起举办，累计吸引超 1.5 万支队伍、近 5 万名选手，覆盖 600 余所高校与 400 余家企业。

反方 / 局限

— 文章的论证链隐含一个前提：Agent 工程问题与业务约束的解决将带来真实产业价值。但这未考虑金融行业对合规、数据安全和模型可解释性的硬性要求，这些可能成为比 Token 成本或工程更根本的落地障碍。

AFAC2026 蚂蚁集团纪韩续兴中姚权铭郭宏成尹俊 FinixDoc-VL FinixDocBench harness框架

17 分钟 · 5 卡片 · 11 资料

读原文 →

金融AI武道大会开赛！四道业务真题，出题人：猜不到最优解

前置背景

商业模式

平行视角

未来推演

延伸追问