将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

资讯配图



编辑 | 心悦

最近几年,人工智能(AI)凭借处理海量数据的强大能力,洞察了科学数据背后的规律,正逐步变革科学研究范式,我们似乎已经看到 AI 驱动一个又一个未来科学发现。

如果我们将目光置于历史长河,当 AI 遇上上古文明,依托这份洞察规律的强大能力,又会碰撞出怎样的火花?

7 月 26 日,在 2025 世界人工智能大会(WAIC 2025)星河启智科学智能开放合作论坛上,全球首个聚焦早期中华文明议题的人工智能模型问世了。

为了响应习总书记「加快建设文化强国」的号召,复旦大学、上海科学智能研究院(下称上智院)与上海创智学院联合打造了早期中华文明多模态大模型(Early Chinese Civilization Multimodal Model)。

该模型系统覆盖考古学、文物、中国古代史、历史地理学、历史文献学、中国古典文献学、汉语言文字学、中国古代文学、中国少数民族语言文学等学科,整合甲骨金文、方志舆图等珍稀史料,形成超大数据规模的早期中华文明知识体系,旨在为早期中华文明研究开辟智能化新路径、构筑文明传承与创新发展的数字基座。

复旦大学校长助理、上智院理事长、上海创智学院副院长吴力波介绍道:「作为一个聚焦早期中华文明源流的智创工程,其核心宗旨是要回答两个问题:第一,我们的中华文明从哪里来?第二,我们的中华文明是怎样演进的?探寻这两个问题的答案对于今天我们要讲好中国故事,传承中国文化,坚定文化自信都有着非常重要的支撑作用。」

「技术理性」与「人文精神」的碰撞

相比于自然科学,人文社会科学面向复杂的社会文化现象,往往更需要综合考量多维度、多层面的数据信息。而 AI 不仅能高效处理海量数据,还善于识别数据中隐含的规律。

这让 AI 与人文社会科学跨越传统学科界限进行深度协作成为可能,也成为必然。

早期中华文明多模态大模型聚焦早期中华文明议题,为其打造专业的学术根基成为首要任务。

复旦大学在人文社科领域有着雄厚的学术实力和深厚的历史底蕴,特别是在历史学、考古学、中国语言文学等学科上优势显著,并长期深耕出土文献与古文字研究,致力于发掘历史思想和文化价值。

早期中华文明多模态大模型正是依托复旦大学优势学科的知识体系与研究成果而构建,为模型提供了权威、系统、前沿的知识支撑,使其可以应用于专业研究场景。

在领域专家参与数据体系构建与知识审核的前提下,AI 科学家展开了算法模型设计与技术攻关,工程团队进行系统开发与平台搭建,多维协同、优势互补。

这是一次「技术理性」与「人文精神」的碰撞,正如复旦大学特聘教授、上智院院长漆远所说:「这种跨界的组合是最有生命力的。」

构建面向专家学者的强大智能引擎

早期中华文明多模态大模型以多学科融合与前沿技术为核心,深度解析中华文明的起源与演进。复旦大学人工智能创新与产业研究院研究员、上智院 AI 科学家朱思语表示:「我们希望以数据和模型的手段辅助考古和古籍考证,去实现各学科多模态数据融合,以更好地服务于中华文明探源工程等国家级科研项目,深入打通学科交叉与合作融合。」

模型整合考古文博、古文字、历史地理、语言学、遗传学等多学科资源,涵盖「人类起源、农业起源、文明起源」等源头探索,以及「中华民族动态形成过程」的流向研究。

资讯配图

早期中华文明多模态数据库

数据是构建大模型的基石。数据的规模决定模型潜力,数据的质量决定模型性能。

复旦大学为早期中华文明多模态大模型提供了高质量人文社科语料支持,深度整合了来自考古实物资料、历史传世文献、古文字数据、历史地理信息、人类学基因数据等权威异构数据源,实现跨模态、跨学科、跨时空信息的对齐与关联。

为了夯实专业数据资源根基,项目面向硕士、博士研究生广泛招募参与者,建立了专业化的知识标注与数据构建团队,确保数据采集、清洗、标注等各环节的学术严谨性与一致性。最终,在复旦大学领域专家的指导下,团队建设了专业性极强的多模态数据库,为早期中华文明多模态大模型的训练提供了坚实的数据基础。

早期中华文明评测集

为了对模型能力进行全面、客观的评估,研究团队构建了采用「学科领域 × 问题难度 × 研究场景」的三维度分层评测框架,设计科学、覆盖全面。

在学科维度上,评测体系涵盖与早期中国文明相关的多个人文社科重点领域,保证了问题设置的专业性与广度。

在难度维度上,评测体系区分基础史实记忆、证据整合与关联分析、学术争议点的批判性论证等不同梯度,难度层级划分合理,覆盖从初级认知到高级推理的全过程。

在场景维度上,评测体系紧密贴合实际研究需求,适配高效检索、精准翻译、非结构化文本 / 图像识读、史实核验、多模态特征提取、史料信度考据及深层分析推理等多种研究任务。

整体体系汇聚超 10000 个高质量问题,确保评测既系统全面又精准有效,能够真实反映人文研究的多元场景与复杂需求。

早期中华文明多模态生成 / 理解大模型

依托上述多模态数据库与评测体系,研究团队开发了一个整合多模态海量数据的早期中华文明多模态生成 / 理解大模型。

模型首创遵循人文研究范式的多模态架构,旨在突破单一学科的认知边界与文献检索限制,具备构建复杂知识网络、揭示隐藏规律与复杂现象的能力,从而在研究的广度和深度两个层面显著增强对早期中华文明的阐释效力。

模型利用考古、古籍、古文字、历史地理图层等多模态数据,通过「中华早期文明多模态时空数据对齐」、「多模态框架下的补全和生成」、「文明起源、形成与发展的因果逻辑推断」三大模块,构建了早期中华文明演进的多模态理解 / 生成模型,形成了早期中华文明研究认知引擎。

早期中华文明 AI Agent 应用平台

最终,研究团队充分融合人文社会科学特有的研究方法与知识生产机制,构建了一个面向多学科领域的早期中华文明 AI Agent 应用平台。该平台支持多步骤复杂推理与任务规划,并严格确保所有模型输出基于可靠知识来源与完整证据链,所有结果均可追溯与验证,从而为专业级人文研究与应用场景提供有效支撑。

例如,输入「四川新津县宝墩遗址出土陶片拓本」图片,就可在 Agent 应用平台获取到这种史前陶片的各项特征,还可直接与「半坡遗址出土陶片」进行关联分析。

资讯配图

值得注意的是,模型给出的回答是非常专业和精准的,因此该 Agent 应用平台有能力服务于学术研究、文化传播、教育教学等领域。

考古报告通常包含文物描述、标记信息等大量内容,往往长达上千页。现在,采用早期中华文明 AI Agent 应用平台,我们「可以把整个考古报告编写流程串起来,自动化地生成考古报告,然后只需要由专业人士做一些修改就可以了」,朱思语介绍道。

总的来说,研究团队构建了从数据基础到智能应用、覆盖研究全链条的早期中华文明研究支撑体系,旨在以人工智能技术推动该领域研究的效能提升与范式变革。

迈向 AI4SSH

早期中华文明多模态大模型是「人文社会科学智能(AI4SSH)」理念的一次重要实践,其研发需要人文洞见与理工技术的深度交叉融合。

AI4SSH(AI for Social Sciences and Humanities)是由复旦大学提出的人文社科研究理念。今年 3 月,由复旦大学国家发展与智能治理综合实验室牵头,联合上智院和德勤中国共同编写的,国内首部 AI 与人文社科结合领域的全面报告《未来已来 —— 人文社会科学智能发展蓝皮书》发布。《蓝皮书》指出:AI 正推动人文社科进入「数据与机理双驱动」的研究范式。

《蓝皮书》主编吴力波表示:「我们希望《蓝皮书》能够开启一个新的起点,就是文科要做精,这也是整个学科范式变革当中的一个重要工作任务。」

早期中华文明多模态大模型正是站在人文社科研究范式变革的转折点,在 AI4SSH 范式的驱动下而生。研究团队利用人工智能前沿技术,构建出了一个面向专家学者的强大智能引擎,让中华文明研究变得更加可及、高效、富有洞察力。

关于探寻中华文明源流,在过往的历史学、古文字、考古研究中,仍然存在很多疑点。比如到今天仍然有很多甲骨文没有被识别出来。

吴力波指出:「(过往研究)由于没有在时间和空间尺度上进行更加深入的挖掘和对齐,因而没有把文明遗珠穿珠成串,形成一个完整的中华文明故事。构建早期中华文明多模态大模型正是要打破学科壁垒,让大家围绕一条逻辑主线,把不同学科的认知集中在一起,最终形成一个完整的中华文明源流全貌。」

长远来看,早期中华文明多模态大模型不仅为中华文明的传承与弘扬提供了更具前瞻性和系统性的技术支撑,也是人工智能推动人类文明研究范式转型的一次重要探索。

我们期待看到未来在 AI4SSH 范式的驱动下,人文社科领域能够迎来更多璀璨的研究成果,也期待 AI 技术在交叉融合中实现新的突破。

人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。