上交大最新！首个全面理解足球的Agent框架

上交大最新！首个全面理解足球的Agent框架 | ACM MM 2025

大模型之心Tech
2025-07-15 08:00:00

点击下方卡片，关注“大模型之心Tech”公众号

今天大模型之心Tech为大家分享上交团队被ACM MM 2025接收的Agent相关论文，本文围绕足球理解领域，构建了首个大规模多模态足球知识库 SoccerWiki，并推出 SoccerAgent 这一新型多智能体系统，通过协作推理分解复杂足球问题。如果您有相关工作需要分享，请在文末联系我们！

>>点击进入→大模型技术交流群

>>点击进入→ Agent技术交流群

本文只做学术分享，如有侵权，联系删文

论文标题：Multi-Agent System for Comprehensive Soccer Understanding

论文作者：Jiayuan Rao等

作者单位：上海交通大学等

论文链接：https://arxiv.org/pdf/2505.03735

开源链接：https://jyrao.github.io/SoccerAgent/

突破足球AI局限！首个全面理解足球的Multti-Agent框架来了

今天要给大家分享一篇来自上海交通大学团队最新的被ACM MM 2025接收的工作，他们在足球AI理解领域搞出了个大动作——提出了一套能让AI"看懂"足球的全方位框架，从球员数据到赛场判罚，统统拿下！

先聊聊现状：现在的足球AI研究，说好听点是"专精"，说难听点就是"偏科"。要么就盯着单一任务死磕，比如只会认个犯规、找个进球；要么就是模型搞得太复杂，换个场景就歇菜。

举个例子：想知道"这位带球球员在2019-20赛季有多少进球和助攻"，这事儿现在的AI就办不了——因为它既得认出球员是谁（视觉识别），又得查他的赛季数据（知识检索），而现在的模型要么只会看，要么只会查，没法协同作战。

而且不同任务的标注格式乱七八糟，想做个综合评估都难。就像让梅西去打门将，不是不行，但肯定发挥不出来啊！

团队瞄准的就是全方位足球理解这个目标。简单说，就是让AI像真正的足球专家一样，既能看懂场上动作，又能记住历史数据，还能分析战术策略。

为了实现这个目标，计划三步走：

建一个超大的足球知识库，把球员、球队、裁判甚至场馆信息都装进去；
搞一套最全面的评估标准，让不同AI模型能公平PK；
开发一个多智能体系统，让各个"AI专家"协同工作。

图1：概述。（a）我们的多智能体系统SoccerAgent在提出的多样化且具有挑战性的SoccerBench上的用户示例；（b）SoccerAgent的推理链和工作流程示例。

本文首发于大模型之心Tech知识星球，硬核资料在星球置顶：加入后可以获取大模型视频课程、代码学习资料及各细分领域学习路线~

戳我 -> 获取大模型巨卷干货

SoccerWiki：让AI秒变足球"活字典"的超级知识库

咱们先想个场景：当解说员喊出"C罗这记任意球堪比2008年欧冠决赛的经典弧线"时，背后需要多少知识？得认识C罗、记得08年决赛细节、懂任意球战术……而现在的AI，就像没带课本的学生，想聊这些门儿都没有。

过去的足球数据要么是"单模态残废"——要么只有文字新闻，要么只有比赛录像；要么是"碎片化拼图"——球员数据归转会市场管，战术分析藏在教练笔记里，AI想查个资料得跳N个平台。

所以团队憋了个大招：把所有足球相关的信息，用统一的格式装进一个"超级大脑"里！

表1：SoccerBench的数据统计。对于每个任务，我们列出其名称、问答类型、来源材料和构建策略。其中，SN和SR-1988分别代表SoccerNet和Soccer-Replay-1988，LLM表示DeepSeek-v3 [32]。

这库的信息量能让资深球迷惊掉下巴，咱们分三类来看：

1. 核心实体库（10万+条目）

球员：从梅西的身高体重到他2012年单年度91球的神迹，连惯用脚、转会记录都标得明明白白
球队：不仅有皇马巴萨这样的豪门，连中甲球队的主场容量、成立时间都收录在内
赛事：世界杯的历史冠军、欧冠的赛制变迁，甚至中超的升降级规则都能查到

2. 多模态关联数据文字不够？直接上"图文视频大礼包"！比如查"姆巴佩2022世界杯决赛帽子戏法"，不仅有文字描述，还有进球瞬间的视频片段、技术统计图表，甚至连当时的战术站位图都有标注。

3. 动态更新系统最绝的是这个库会"与时俱进"！新赛季开始后，球员的实时数据会自动更新；刚结束的比赛，赛后技术报告两小时内就能入库。就像给AI配了个实时更新的"足球年鉴"。

图2：SoccerBench问答生成流程。我们基于SoccerWiki和其他现有数据集构建了多项选择问答样本，并提供了每个任务的代表性示例供参考。

SoccerAgent：让AI组队"踢"懂足球的神操作

图3：SoccerAgent架构概览。我们设计了一个多智能体系统，借助分布式工具箱逐步分解并解决给定的多模态足球相关问题。

咱们看球时都知道，光靠前锋赢不了比赛，得有中场组织、后卫防守、门将扑救，缺一不可。AI理解足球也是一个道理：

比如问"2023年欧冠决赛，京多安的进球是不是越位？"——这问题看似简单，实则需要N个步骤：

先认出进球的是京多安（人脸识别）
找到2023欧冠决赛的录像（赛事检索）
定位进球瞬间的画面（视频帧分析）
判断当时的越位线（战术标注）
结合足球规则给出结论（知识推理）

过去的AI模型就像"孤军奋战的前锋"，能做好其中一步就不错了。而SoccerAgent的思路是：让每个AI工具专注一项技能，再组队完成复杂任务。

这个系统里藏着18个"专项教练"（工具），咱们挑几个关键角色讲讲：

「侦察兵」工具组

人脸 recognition：给张球员特写，3秒内报出名字+国籍，连他小时候的青训俱乐部都能扒出来
赛事检索器：说"2022世界杯阿根廷vs法国"，立刻调出比赛录像、裁判名单、技术统计
镜头分析仪：看一眼画面就知道是"主摄像机视角"还是"球门后特写"，连镜头切换的瞬间都能捕捉

「战术分析师」工具组

动作分类器：视频里球员抬脚射门，它能立刻判断是"远射""任意球"还是"点球"
犯规识别器：多机位画面一对比，马上告诉你是"手球""拉人"还是"假摔"，连该给黄牌还是红牌都能建议
比分计时器：直播画面里的比分牌、伤停补时，扫一眼就精准提取

「数据管家」工具组

文本检索器：查"哈兰德本赛季英超进球数"，直接从数据库里拽出最新数据，比转会市场还快
多选项匹配器：把AI的分析结果，自动对应到选择题的A/B/C/D选项，方便打分

这些工具就像教练组里的体能教练、战术分析师、录像分析师，各管一摊但目标一致——把问题搞明白！

举个例子，当被问到"2021年欧冠决赛，切尔西vs曼城，哈弗茨的进球用了什么战术配合？"，SoccerAgent会这么操作：

拆解任务（相当于主教练排兵布阵）：

先确定比赛是哪场（调用「赛事检索器」）
找到哈弗茨进球的视频片段（调用「镜头分析仪」）
分析进球前的传球路线（调用「动作分类器」）
结合战术知识总结配合类型（调用「文本检索器」）

分步执行（相当于助理教练各司其职）：

第一步：赛事检索器找到2021欧冠决赛的录像文件
第二步：镜头分析仪定位到第42分钟哈弗茨进球画面
第三步：动作分类器识别出"长传打身后""单刀突破"等关键动作
第四步：文本检索器结合切尔西当时的战术体系，得出"防守反击+直塞球"的结论

输出答案（相当于赛后发布会总结）：把所有分析串起来，用人类能听懂的话解释清楚。

🔥 足球AI大比拼！SoccerAgent凭什么碾压GPT-4o？

研究团队把11个最能打的多模态大模型拉来PK，既有GPT-4o、Claude这样的"顶流选手"，也有DeepSeek、Qwen等"潜力新星"。测试内容就是SoccerBench benchmark，13个任务从"认球衣号码"到"判罚多视角犯规"，简直是足球AI的"高考卷"！

表2：SoccerBench的定量对比结果。其中，*表示我们在推荐的工具链中使用了商业API（GPT-4o [39]）来解决相应任务。

表3：SoccerAgent的消融实验结果。其中，灰色背景表示SoccerAgent的默认配置，TD和EX分别表示任务描述和执行示例。

商业模型表现：GPT-4o果然不虚，总分57.5分领跑，但在"进球线技术摄像头识别"这类冷门任务上栽了跟头；Claude 3.7虽然文字理解强，但看视频时经常把"角球摄像头"认错成"蜘蛛摄像头"。
开源模型短板：Qwen2.5-VL在"球员特写识别"上准确率82%，但一碰到"球衣号码背对判断"就懵圈，经常把正面球员误判成背影。
SoccerAgent杀疯了：咱们的主角直接拿下60.9分！特别是在"背景知识问答"（比如查球员转会记录）上正确率95.9%，把GPT-4o甩开30多分，堪称"足球知识活字典"。

图4：定性结果。在此，我们展示了几个代表性示例，以说明不同足球理解任务的工具规划和工具执行全过程。

关键发现：AI看球也偏科！

视觉任务易翻车：所有模型在"进球瞬间时间识别"上正确率不到50%，看来AI对"伤停补时"的概念还没吃透。
知识类任务拉开差距：SoccerAgent靠着SoccerWiki的加持，在"球队历史战绩"这类问题上碾压对手，证明"带课本考试"确实比"裸考"靠谱。
多视角判罚是难点：面对"同一犯规的主客场镜头对比"，连GPT-4o都有35%的概率判错，而SoccerAgent通过工具协作把错误率压到了12%。

总结

这项工作提出了一个用于全面理解足球的综合框架。具体而言，构建了SoccerWiki，首个整合了丰富足球特定领域知识的大规模多模态知识库。借助SoccerWiki和各种现有数据源，还推出了SoccerBench，这是迄今为止最全面的足球基准，包含约10K个标准化问答对，涵盖13项足球理解任务。为应对这一具有挑战性且知识密集型的任务，研发了SoccerAgent——一种新型多智能体系统，它通过协作推理和领域专业知识实现了稳健的性能。大量评估和消融实验表明，所提出的框架优于现有的多模态大型语言模型，为知识驱动的体育分析奠定了新基础。

更多有关Agent的讨论，可以加入我们⬇️！

大模型之心Tech知识星球交流社区

我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球，希望能够帮你把复杂的东西拆开，揉碎，整合，帮你快速打通从0到1的技术路径。

星球内容包含：每日大模型相关论文/技术报告更新、分类汇总（开源repo、大模型预训练、后训练、知识蒸馏、量化、推理模型、MoE、强化学习、RAG、提示工程等多个版块）、科研/办公助手、AI创作工具/产品测评、升学&求职&岗位推荐，等等。

星球成员平均每天花费不到0.3元，加入后3天内不满意可随时退款，欢迎扫码加入一起学习一起卷！

声明：本文内容及配图由入驻作者撰写或合作网站授权转载。文章观点仅代表作者本人，不代表科技区角网立场。仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。点击这里

点赞 0
分享
微信扫一扫
加入群聊
扫码加入群聊