商业量子位··AI 生成
金融AI武道大会开赛!四道业务真题,出题人:猜不到最优解
文章报道了 AFAC2026 金融智能创新大赛的四道赛题,分别聚焦市场交易行为识别、复杂金融文档还原、稀疏反馈下的自动化实验和金融长文本 Agent 问答。核心论点是大模型在金融垂直场景落地困难,本质是 Agent 工程问题而非参数 Scaling,需要研究者具备对业务约束的尊重和工程品味。适合关注 AI 产业落地、金融科技和 Agent 工程的读者阅读。原文 ↗原文 ↗
核心观点
- ▍金融垂直场景中,大模型落地困难的核心不是参数 Scaling,而是 Agent 层面的工程问题,需要可复现的洞见和对业务约束的尊重。
- 01保险文档还原 Markdown 任务中,一旦涉及大图片、大文档,模型在 Benchmark 上的平均分掉到 0.1 以下,GPT、Gemini 等前沿多模态模型也表现不佳。
- 02金融文档(如保险单)包含多级标题、密集表格、脚注和批注,且阅读顺序对语义至关重要,普通OCR无法处理,大模型在超大图输入时窗口会爆掉。
- 03赛题三(稀疏反馈自动化实验)中,清华大学姚权铭指出金融图学习的搜索空间缺乏连贯语义,通用模型的语言先验难以发挥作用,3B 参数的专业模型可能优于昂贵 API。
- 04赛题四(金融长文本问答)将 Token 消耗纳入评测维度,因为金融机构面对海量文档,日/月级调用量的账单会极其高昂。
- 05蚂蚁集团副总裁尹俊表示,金融+AI 的具体形态有待摸索,价值尚未被充分证明,合规和风险控制要求高,且存在经营压力。
- 06AFAC 大赛 2023 年起举办,累计吸引超 1.5 万支队伍、近 5 万名选手,覆盖 600 余所高校与 400 余家企业。
反方 / 局限
- — 文章的论证链隐含一个前提:Agent 工程问题与业务约束的解决将带来真实产业价值。但这未考虑金融行业对合规、数据安全和模型可解释性的硬性要求,这些可能成为比 Token 成本或工程更根本的落地障碍。
17 分钟 · 5 卡片 · 11 资料
读原文 →前置背景
商业模式
平行视角
未来推演
延伸追问