点击下方卡片,关注“大模型之心Tech”公众号

戳我 -> 领取大模型巨卷干货


今天大模型之心Tech大家分享上交团队ACM MM 2025接收Agent相关论文,本文围绕足球理解领域,构建了首个大规模多模态足球知识库 SoccerWiki,并推出 SoccerAgent 这一新型多智能体系统,通过协作推理分解复杂足球问题。如果您有相关工作需要分享,请在文末联系我们!


>>点击进入→大模型技术交流群


>>点击进入→ Agent技术交流群


本文只做学术分享,如有侵权,联系删文

论文标题:Multi-Agent System for Comprehensive Soccer Understanding

论文作者:Jiayuan Rao等

作者单位:上海交通大学等

论文链接:https://arxiv.org/pdf/2505.03735

开源链接:https://jyrao.github.io/SoccerAgent/

突破足球AI局限!首个全面理解足球的Multti-Agent框架来了

今天要给大家分享一篇来自上海交通大学团队最新的被ACM MM 2025接收的工作,他们在足球AI理解领域搞出了个大动作——提出了一套能让AI"看懂"足球的全方位框架,从球员数据到赛场判罚,统统拿下!

先聊聊现状:现在的足球AI研究,说好听点是"专精",说难听点就是"偏科"。要么就盯着单一任务死磕,比如只会认个犯规、找个进球;要么就是模型搞得太复杂,换个场景就歇菜。

举个例子:想知道"这位带球球员在2019-20赛季有多少进球和助攻",这事儿现在的AI就办不了——因为它既得认出球员是谁(视觉识别),又得查他的赛季数据(知识检索),而现在的模型要么只会看,要么只会查,没法协同作战。

而且不同任务的标注格式乱七八糟,想做个综合评估都难。就像让梅西去打门将,不是不行,但肯定发挥不出来啊!

团队瞄准的就是全方位足球理解这个目标。简单说,就是让AI像真正的足球专家一样,既能看懂场上动作,又能记住历史数据,还能分析战术策略。

为了实现这个目标,计划三步走:

  1. 建一个超大的足球知识库,把球员、球队、裁判甚至场馆信息都装进去;
  2. 搞一套最全面的评估标准,让不同AI模型能公平PK;
  3. 开发一个多智能体系统,让各个"AI专家"协同工作。
图1:概述。(a)我们的多智能体系统SoccerAgent在提出的多样化且具有挑战性的SoccerBench上的用户示例;(b)SoccerAgent的推理链和工作流程示例。
图1:概述。(a)我们的多智能体系统SoccerAgent在提出的多样化且具有挑战性的SoccerBench上的用户示例;(b)SoccerAgent的推理链和工作流程示例。
本文首发于大模型之心Tech知识星球,硬核资料在星球置顶:加入后可以获取大模型视频课程、代码学习资料及各细分领域学习路线~
戳我 -> 获取大模型巨卷干货

SoccerWiki:让AI秒变足球"活字典"的超级知识库

咱们先想个场景:当解说员喊出"C罗这记任意球堪比2008年欧冠决赛的经典弧线"时,背后需要多少知识?得认识C罗、记得08年决赛细节、懂任意球战术……而现在的AI,就像没带课本的学生,想聊这些门儿都没有。

过去的足球数据要么是"单模态残废"——要么只有文字新闻,要么只有比赛录像;要么是"碎片化拼图"——球员数据归转会市场管,战术分析藏在教练笔记里,AI想查个资料得跳N个平台。

所以团队憋了个大招:把所有足球相关的信息,用统一的格式装进一个"超级大脑"里!

表1:SoccerBench的数据统计。对于每个任务,我们列出其名称、问答类型、来源材料和构建策略。其中,SN和SR-1988分别代表SoccerNet和Soccer-Replay-1988,LLM表示DeepSeek-v3 [32]。
表1:SoccerBench的数据统计。对于每个任务,我们列出其名称、问答类型、来源材料和构建策略。其中,SN和SR-1988分别代表SoccerNet和Soccer-Replay-1988,LLM表示DeepSeek-v3 [32]。

这库的信息量能让资深球迷惊掉下巴,咱们分三类来看:

1. 核心实体库(10万+条目)

  • 球员:从梅西的身高体重到他2012年单年度91球的神迹,连惯用脚、转会记录都标得明明白白
  • 球队:不仅有皇马巴萨这样的豪门,连中甲球队的主场容量、成立时间都收录在内
  • 赛事:世界杯的历史冠军、欧冠的赛制变迁,甚至中超的升降级规则都能查到

2. 多模态关联数据文字不够?直接上"图文视频大礼包"!比如查"姆巴佩2022世界杯决赛帽子戏法",不仅有文字描述,还有进球瞬间的视频片段、技术统计图表,甚至连当时的战术站位图都有标注。

3. 动态更新系统最绝的是这个库会"与时俱进"!新赛季开始后,球员的实时数据会自动更新;刚结束的比赛,赛后技术报告两小时内就能入库。就像给AI配了个实时更新的"足球年鉴"。

图2:SoccerBench问答生成流程。我们基于SoccerWiki和其他现有数据集构建了多项选择问答样本,并提供了每个任务的代表性示例供参考。
图2:SoccerBench问答生成流程。我们基于SoccerWiki和其他现有数据集构建了多项选择问答样本,并提供了每个任务的代表性示例供参考。

SoccerAgent:让AI组队"踢"懂足球的神操作

图3:SoccerAgent架构概览。我们设计了一个多智能体系统,借助分布式工具箱逐步分解并解决给定的多模态足球相关问题。
图3:SoccerAgent架构概览。我们设计了一个多智能体系统,借助分布式工具箱逐步分解并解决给定的多模态足球相关问题。

咱们看球时都知道,光靠前锋赢不了比赛,得有中场组织、后卫防守、门将扑救,缺一不可。AI理解足球也是一个道理:

比如问"2023年欧冠决赛,京多安的进球是不是越位?"——这问题看似简单,实则需要N个步骤:

  1. 先认出进球的是京多安(人脸识别)
  2. 找到2023欧冠决赛的录像(赛事检索)
  3. 定位进球瞬间的画面(视频帧分析)
  4. 判断当时的越位线(战术标注)
  5. 结合足球规则给出结论(知识推理)

过去的AI模型就像"孤军奋战的前锋",能做好其中一步就不错了。而SoccerAgent的思路是:让每个AI工具专注一项技能,再组队完成复杂任务

这个系统里藏着18个"专项教练"(工具),咱们挑几个关键角色讲讲:

「侦察兵」工具组

  • 人脸 recognition:给张球员特写,3秒内报出名字+国籍,连他小时候的青训俱乐部都能扒出来
  • 赛事检索器:说"2022世界杯阿根廷vs法国",立刻调出比赛录像、裁判名单、技术统计
  • 镜头分析仪:看一眼画面就知道是"主摄像机视角"还是"球门后特写",连镜头切换的瞬间都能捕捉

「战术分析师」工具组

  • 动作分类器:视频里球员抬脚射门,它能立刻判断是"远射""任意球"还是"点球"
  • 犯规识别器:多机位画面一对比,马上告诉你是"手球""拉人"还是"假摔",连该给黄牌还是红牌都能建议
  • 比分计时器:直播画面里的比分牌、伤停补时,扫一眼就精准提取

「数据管家」工具组

  • 文本检索器:查"哈兰德本赛季英超进球数",直接从数据库里拽出最新数据,比转会市场还快
  • 多选项匹配器:把AI的分析结果,自动对应到选择题的A/B/C/D选项,方便打分

这些工具就像教练组里的体能教练、战术分析师、录像分析师,各管一摊但目标一致——把问题搞明白!

举个例子,当被问到"2021年欧冠决赛,切尔西vs曼城,哈弗茨的进球用了什么战术配合?",SoccerAgent会这么操作:

  1. 拆解任务(相当于主教练排兵布阵):

  • 先确定比赛是哪场(调用「赛事检索器」)
  • 找到哈弗茨进球的视频片段(调用「镜头分析仪」)
  • 分析进球前的传球路线(调用「动作分类器」)
  • 结合战术知识总结配合类型(调用「文本检索器」)
  • 分步执行(相当于助理教练各司其职):

    • 第一步:赛事检索器找到2021欧冠决赛的录像文件
    • 第二步:镜头分析仪定位到第42分钟哈弗茨进球画面
    • 第三步:动作分类器识别出"长传打身后""单刀突破"等关键动作
    • 第四步:文本检索器结合切尔西当时的战术体系,得出"防守反击+直塞球"的结论
  • 输出答案(相当于赛后发布会总结):把所有分析串起来,用人类能听懂的话解释清楚。

  • 🔥 足球AI大比拼!SoccerAgent凭什么碾压GPT-4o?

    研究团队把11个最能打的多模态大模型拉来PK,既有GPT-4o、Claude这样的"顶流选手",也有DeepSeek、Qwen等"潜力新星"。测试内容就是SoccerBench benchmark,13个任务从"认球衣号码"到"判罚多视角犯规",简直是足球AI的"高考卷"!

    表2:SoccerBench的定量对比结果。其中,*表示我们在推荐的工具链中使用了商业API(GPT-4o [39])来解决相应任务。
    表2:SoccerBench的定量对比结果。其中,*表示我们在推荐的工具链中使用了商业API(GPT-4o [39])来解决相应任务。
    表3:SoccerAgent的消融实验结果。其中,灰色背景表示SoccerAgent的默认配置,TD和EX分别表示任务描述和执行示例。
    表3:SoccerAgent的消融实验结果。其中,灰色背景表示SoccerAgent的默认配置,TD和EX分别表示任务描述和执行示例。
    • 商业模型表现:GPT-4o果然不虚,总分57.5分领跑,但在"进球线技术摄像头识别"这类冷门任务上栽了跟头;Claude 3.7虽然文字理解强,但看视频时经常把"角球摄像头"认错成"蜘蛛摄像头"。
    • 开源模型短板:Qwen2.5-VL在"球员特写识别"上准确率82%,但一碰到"球衣号码背对判断"就懵圈,经常把正面球员误判成背影。
    • SoccerAgent杀疯了:咱们的主角直接拿下60.9分!特别是在"背景知识问答"(比如查球员转会记录)上正确率95.9%,把GPT-4o甩开30多分,堪称"足球知识活字典"。
    图4:定性结果。在此,我们展示了几个代表性示例,以说明不同足球理解任务的工具规划和工具执行全过程。
    图4:定性结果。在此,我们展示了几个代表性示例,以说明不同足球理解任务的工具规划和工具执行全过程。

    关键发现:AI看球也偏科!

    1. 视觉任务易翻车:所有模型在"进球瞬间时间识别"上正确率不到50%,看来AI对"伤停补时"的概念还没吃透。
    2. 知识类任务拉开差距:SoccerAgent靠着SoccerWiki的加持,在"球队历史战绩"这类问题上碾压对手,证明"带课本考试"确实比"裸考"靠谱。
    3. 多视角判罚是难点:面对"同一犯规的主客场镜头对比",连GPT-4o都有35%的概率判错,而SoccerAgent通过工具协作把错误率压到了12%。

    总结

    这项工作提出了一个用于全面理解足球的综合框架。具体而言,构建了SoccerWiki,首个整合了丰富足球特定领域知识的大规模多模态知识库。借助SoccerWiki和各种现有数据源,还推出了SoccerBench,这是迄今为止最全面的足球基准,包含约10K个标准化问答对,涵盖13项足球理解任务。为应对这一具有挑战性且知识密集型的任务,研发了SoccerAgent——一种新型多智能体系统,它通过协作推理和领域专业知识实现了稳健的性能。大量评估和消融实验表明,所提出的框架优于现有的多模态大型语言模型,为知识驱动的体育分析奠定了新基础。

    更多有关Agent的讨论,可以加入我们⬇️!



    大模型之心Tech知识星球交流社区

    我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球,希望能够帮你把复杂的东西拆开,揉碎,整合,帮你快速打通从0到1的技术路径。 

    星球内容包含:每日大模型相关论文/技术报告更新、分类汇总(开源repo大模型预训练后训练知识蒸馏量化推理模型MoE强化学习RAG提示工程等多个版块)、科研/办公助手AI创作工具/产品测评、升学&求职&岗位推荐,等等。

    星球成员平均每天花费不到0.3元,加入后3天内不满意可随时退款,欢迎扫码加入一起学习一起卷!