上交大最新!首个全面理解足球的Agent框架 | ACM MM 2025
- 2025-07-15 08:00:00
点击下方卡片,关注“大模型之心Tech”公众号
今天大模型之心Tech为大家分享上交团队被ACM MM 2025接收的Agent相关论文,本文围绕足球理解领域,构建了首个大规模多模态足球知识库 SoccerWiki,并推出 SoccerAgent 这一新型多智能体系统,通过协作推理分解复杂足球问题。如果您有相关工作需要分享,请在文末联系我们!
>>点击进入→大模型技术交流群
>>点击进入→ Agent技术交流群
论文标题:Multi-Agent System for Comprehensive Soccer Understanding
论文作者:Jiayuan Rao等
作者单位:上海交通大学等
论文链接:https://arxiv.org/pdf/2505.03735
开源链接:https://jyrao.github.io/SoccerAgent/
突破足球AI局限!首个全面理解足球的Multti-Agent框架来了
今天要给大家分享一篇来自上海交通大学团队最新的被ACM MM 2025接收的工作,他们在足球AI理解领域搞出了个大动作——提出了一套能让AI"看懂"足球的全方位框架,从球员数据到赛场判罚,统统拿下!
先聊聊现状:现在的足球AI研究,说好听点是"专精",说难听点就是"偏科"。要么就盯着单一任务死磕,比如只会认个犯规、找个进球;要么就是模型搞得太复杂,换个场景就歇菜。
举个例子:想知道"这位带球球员在2019-20赛季有多少进球和助攻",这事儿现在的AI就办不了——因为它既得认出球员是谁(视觉识别),又得查他的赛季数据(知识检索),而现在的模型要么只会看,要么只会查,没法协同作战。
而且不同任务的标注格式乱七八糟,想做个综合评估都难。就像让梅西去打门将,不是不行,但肯定发挥不出来啊!
团队瞄准的就是全方位足球理解这个目标。简单说,就是让AI像真正的足球专家一样,既能看懂场上动作,又能记住历史数据,还能分析战术策略。
为了实现这个目标,计划三步走:
建一个超大的足球知识库,把球员、球队、裁判甚至场馆信息都装进去; 搞一套最全面的评估标准,让不同AI模型能公平PK; 开发一个多智能体系统,让各个"AI专家"协同工作。

SoccerWiki:让AI秒变足球"活字典"的超级知识库
咱们先想个场景:当解说员喊出"C罗这记任意球堪比2008年欧冠决赛的经典弧线"时,背后需要多少知识?得认识C罗、记得08年决赛细节、懂任意球战术……而现在的AI,就像没带课本的学生,想聊这些门儿都没有。
过去的足球数据要么是"单模态残废"——要么只有文字新闻,要么只有比赛录像;要么是"碎片化拼图"——球员数据归转会市场管,战术分析藏在教练笔记里,AI想查个资料得跳N个平台。
所以团队憋了个大招:把所有足球相关的信息,用统一的格式装进一个"超级大脑"里!
![表1:SoccerBench的数据统计。对于每个任务,我们列出其名称、问答类型、来源材料和构建策略。其中,SN和SR-1988分别代表SoccerNet和Soccer-Replay-1988,LLM表示DeepSeek-v3 [32]。](https://xtechcon-static.oss-cn-chengdu.aliyuncs.com/xtimes/xtimes/images/2025-07-15/68759ba02923d.png)
这库的信息量能让资深球迷惊掉下巴,咱们分三类来看:
1. 核心实体库(10万+条目)
球员:从梅西的身高体重到他2012年单年度91球的神迹,连惯用脚、转会记录都标得明明白白 球队:不仅有皇马巴萨这样的豪门,连中甲球队的主场容量、成立时间都收录在内 赛事:世界杯的历史冠军、欧冠的赛制变迁,甚至中超的升降级规则都能查到
2. 多模态关联数据文字不够?直接上"图文视频大礼包"!比如查"姆巴佩2022世界杯决赛帽子戏法",不仅有文字描述,还有进球瞬间的视频片段、技术统计图表,甚至连当时的战术站位图都有标注。
3. 动态更新系统最绝的是这个库会"与时俱进"!新赛季开始后,球员的实时数据会自动更新;刚结束的比赛,赛后技术报告两小时内就能入库。就像给AI配了个实时更新的"足球年鉴"。

SoccerAgent:让AI组队"踢"懂足球的神操作

咱们看球时都知道,光靠前锋赢不了比赛,得有中场组织、后卫防守、门将扑救,缺一不可。AI理解足球也是一个道理:
比如问"2023年欧冠决赛,京多安的进球是不是越位?"——这问题看似简单,实则需要N个步骤:
先认出进球的是京多安(人脸识别) 找到2023欧冠决赛的录像(赛事检索) 定位进球瞬间的画面(视频帧分析) 判断当时的越位线(战术标注) 结合足球规则给出结论(知识推理)
过去的AI模型就像"孤军奋战的前锋",能做好其中一步就不错了。而SoccerAgent的思路是:让每个AI工具专注一项技能,再组队完成复杂任务。
这个系统里藏着18个"专项教练"(工具),咱们挑几个关键角色讲讲:
「侦察兵」工具组
人脸 recognition:给张球员特写,3秒内报出名字+国籍,连他小时候的青训俱乐部都能扒出来 赛事检索器:说"2022世界杯阿根廷vs法国",立刻调出比赛录像、裁判名单、技术统计 镜头分析仪:看一眼画面就知道是"主摄像机视角"还是"球门后特写",连镜头切换的瞬间都能捕捉
「战术分析师」工具组
动作分类器:视频里球员抬脚射门,它能立刻判断是"远射""任意球"还是"点球" 犯规识别器:多机位画面一对比,马上告诉你是"手球""拉人"还是"假摔",连该给黄牌还是红牌都能建议 比分计时器:直播画面里的比分牌、伤停补时,扫一眼就精准提取
「数据管家」工具组
文本检索器:查"哈兰德本赛季英超进球数",直接从数据库里拽出最新数据,比转会市场还快 多选项匹配器:把AI的分析结果,自动对应到选择题的A/B/C/D选项,方便打分
这些工具就像教练组里的体能教练、战术分析师、录像分析师,各管一摊但目标一致——把问题搞明白!
举个例子,当被问到"2021年欧冠决赛,切尔西vs曼城,哈弗茨的进球用了什么战术配合?",SoccerAgent会这么操作:
拆解任务(相当于主教练排兵布阵):
先确定比赛是哪场(调用「赛事检索器」) 找到哈弗茨进球的视频片段(调用「镜头分析仪」) 分析进球前的传球路线(调用「动作分类器」) 结合战术知识总结配合类型(调用「文本检索器」)
分步执行(相当于助理教练各司其职):
第一步:赛事检索器找到2021欧冠决赛的录像文件 第二步:镜头分析仪定位到第42分钟哈弗茨进球画面 第三步:动作分类器识别出"长传打身后""单刀突破"等关键动作 第四步:文本检索器结合切尔西当时的战术体系,得出"防守反击+直塞球"的结论
输出答案(相当于赛后发布会总结):把所有分析串起来,用人类能听懂的话解释清楚。
🔥 足球AI大比拼!SoccerAgent凭什么碾压GPT-4o?
研究团队把11个最能打的多模态大模型拉来PK,既有GPT-4o、Claude这样的"顶流选手",也有DeepSeek、Qwen等"潜力新星"。测试内容就是SoccerBench benchmark,13个任务从"认球衣号码"到"判罚多视角犯规",简直是足球AI的"高考卷"!
![表2:SoccerBench的定量对比结果。其中,*表示我们在推荐的工具链中使用了商业API(GPT-4o [39])来解决相应任务。](https://xtechcon-static.oss-cn-chengdu.aliyuncs.com/xtimes/xtimes/images/2025-07-15/68759ba0e2787.png)

商业模型表现:GPT-4o果然不虚,总分57.5分领跑,但在"进球线技术摄像头识别"这类冷门任务上栽了跟头;Claude 3.7虽然文字理解强,但看视频时经常把"角球摄像头"认错成"蜘蛛摄像头"。 开源模型短板:Qwen2.5-VL在"球员特写识别"上准确率82%,但一碰到"球衣号码背对判断"就懵圈,经常把正面球员误判成背影。 SoccerAgent杀疯了:咱们的主角直接拿下60.9分!特别是在"背景知识问答"(比如查球员转会记录)上正确率95.9%,把GPT-4o甩开30多分,堪称"足球知识活字典"。

关键发现:AI看球也偏科!
视觉任务易翻车:所有模型在"进球瞬间时间识别"上正确率不到50%,看来AI对"伤停补时"的概念还没吃透。 知识类任务拉开差距:SoccerAgent靠着SoccerWiki的加持,在"球队历史战绩"这类问题上碾压对手,证明"带课本考试"确实比"裸考"靠谱。 多视角判罚是难点:面对"同一犯规的主客场镜头对比",连GPT-4o都有35%的概率判错,而SoccerAgent通过工具协作把错误率压到了12%。
总结
这项工作提出了一个用于全面理解足球的综合框架。具体而言,构建了SoccerWiki,首个整合了丰富足球特定领域知识的大规模多模态知识库。借助SoccerWiki和各种现有数据源,还推出了SoccerBench,这是迄今为止最全面的足球基准,包含约10K个标准化问答对,涵盖13项足球理解任务。为应对这一具有挑战性且知识密集型的任务,研发了SoccerAgent——一种新型多智能体系统,它通过协作推理和领域专业知识实现了稳健的性能。大量评估和消融实验表明,所提出的框架优于现有的多模态大型语言模型,为知识驱动的体育分析奠定了新基础。
更多有关Agent的讨论,可以加入我们⬇️!

大模型之心Tech知识星球交流社区
我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球,希望能够帮你把复杂的东西拆开,揉碎,整合,帮你快速打通从0到1的技术路径。
星球内容包含:每日大模型相关论文/技术报告更新、分类汇总(开源repo、大模型预训练、后训练、知识蒸馏、量化、推理模型、MoE、强化学习、RAG、提示工程等多个版块)、科研/办公助手、AI创作工具/产品测评、升学&求职&岗位推荐,等等。
星球成员平均每天花费不到0.3元,加入后3天内不满意可随时退款,欢迎扫码加入一起学习一起卷!

- 点赞 0
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊