论坛直击 | 以AI Ready重新定义好数据:2025世界人工智能大会语料创新发展论坛成功举办!
- 2025-07-29 17:01:50

7月27日,2025世界人工智能大会“语料筑基 智生时代”语料创新发展论坛在上海世博中心正式拉开帷幕,论坛由世界人工智能大会组委会指导,上海库帕思科技有限公司、上海市人工智能行业协会主办。上海市委常委、副市长陈杰出席论坛并致辞,中国科学院院士鄂维南等顶尖科学家、专家学者和创新创业者作主旨演讲。
陈杰在致辞中指出,上海将牢记总书记的嘱托,以排头兵的姿态和先行者的担当,全力打造语料基座的上海方案,为世界贡献中国智慧。上海推动人工智能产业发展,始终以生态打造为核心,全力以赴通过要素的集聚来实现更为完善、更为优良的产业发展生态。对于语料,上海市委市政府一开始就高度重视,因此组建了库帕思,要求库帕思以市场化运营的方式为行业发展赋能,为中小企业的创新突破赋能,重点突破具身智能、强推理数据集、稀缺数据集等3个专项工程。通过建立共建、共享、共同收益的机制,把高质量语料库建设好,构建多层次的语料供给体系,强化语料的标准建设,升级语料的运营平台,进一步攻关数据合成、思维链等新技术,赋能新应用,真正实现有效供给,加速推动模型迭代。
论坛聚焦AI Ready的高质量语料数据,以“平台筑基、工具赋能、标准引领、生态协同”为主线,集中发布四大类核心成果。
服务能级再上台阶,重磅发布“对内对外”2套平台。对外,库帕思对标服务国家战略,按照全市整体部署,打造全国首个语料运营公共服务统一门户,按照“统一标准、统一门户、统一机制”的“1+N”运行框架,推动语料调用服务Agent化,同步完成上链。对内,库帕思发布语料工具链平台2.0,延续“采、洗、标、测、用”五位一体布局,适应模型之变,激活AI时代的数据生产力,语料工具链平台2.0版本完成403个功能模块,涵盖多模异构数据采集、智能清洗算子、智能预标注算子、评测数据集管理和标准化语料交付等核心功能,并在医疗、教育、金融、城市治理等领域投入实战,兼具云化部署和私有化部署,完成与现有国产算力适配。

语料运营公共服务统一门户正式启用

语料工具链平台2.0正式发布
标准牵引生态链接,发布13项标准和1项指南。库帕思会同行业生态合作伙伴,持续开展“一业一方法、一业一指引”,不断深化标准研制工作。此次论坛上,集中发布了10项语料团体标准,并联合信通院共同发布3项行业标准、1项高质量数据集建设指南,标准涵盖医疗、教育、金融、自动驾驶、科学智能、城市治理等多个方向,为行业发展提供了有实操价值的指导和参考,为 “好数据”确立可量化的标尺。

发布语料数据系列标准
持续深化语料数据人才培养,启动工程硕博士联合培养项目。与上海交通大学、复旦大学、同济大学、上海大学、上海中医药大学、上海理工大学、上海师范大学和上海电力大学等高校,聚焦模数协同、数算协同等语料产品和技术领域,培育兼具学术底蕴与实战能力的复合型人才,形成学校专业教育和行业导师实践协同的“产学研铁三角”,打造语料领域产教融合新模式。
工程硕博士联合培养点正式揭牌
持续打响CICC大赛、语料风云榜等生态品牌。语料数据智能创意大赛(CICC)面向全社会寻找“好语料、好技术、好场景”,为上海“模塑申城”工程筑牢语料基石。按照“项目创新性”“项目与语料主题契合度”“项目商业价值”三大维度,对200多个团队的参赛方案,进行专家专业评审,最终评选出12家获奖单位。语料风云榜,为行业遴选标杆示范,按照专业化、链接型、前瞻性三个维度,围绕“语料库质量、品牌能力、市场表现”等16项指标,最终评选出“2025语料风云榜转型典范Top 10”、“2025语料风云榜新锐势力Top 10”。
语料数据智能创意大赛颁奖仪式

2025语料风云榜获奖企业
主旨演讲环节,中国科学院院士、上海算法创新研究院学术委员会主任鄂维南带来《Data-centric AI的基础设施》,深入剖析了数据驱动AI创新应用的技术路径。鄂维南表示,未来我们必须建立高质量的“数据产线”,就像一个生产线一样,这是未来人工智能最重要的基础设施,在上面可以支撑各种各样的大模型或者Agent。如果把原始数据比作“原油”,这套基础设施则是“炼油厂”,把原油炼成了可以用的精品油,同时也要有一个比较好的存储机制,里面有一系列工具能高精度的把数据提取出来、用起来,这就是AI数据库。整套连在一起,才能把“数据产线”做好。鄂维南表示将和库帕思一起把这样的炼油厂、仓库的生产线建起来,然后在全国范围内批量的布高质量、高水平的专业数据产线。
中国科学院院士、上海算法创新研究院学术委员会主任鄂维南
上海库帕思科技有限公司董事长山栋明带来《拥抱以数据为中心的人工智能时代》。山栋明表示人工智能的浪潮已经扑面而来,模型在发生一系列的变化,从过去的大参数、多模态模型在慢慢向小参数生产力模型、强推理慢思考模型、科学智能模型和面向物理AI的具身智能模型转变。相应的语料数据也会发生一系列变化。因此,库帕思进行了一系列的创新实践,用三个重构来表达:语料数据方法体系重构、语料技术设施体系重构、语料行业生态体系重构。坚持做好四件事:建基座、强技术、搭平台、育生态。
上海市信息投资股份有限公司副总裁、上海库帕思科技有限公司董事长山栋明
上海人工智能实验室青年科学家何聪辉为大家介绍《MinerU2:异构数据到AI-Ready的智能引擎》。何聪辉表示,当前所有的模型都是用非常类似的公开数据集做训练,模型的同质化不可避免,如何打破僵局,他认为AI数据的价值发生了跃迁,模型将会从规模之争走向数据质量的竞赛。何聪辉介绍了MinerU 2,在原来的基础上,用更新的架构把数据解析推向了新高度,性能提升了6倍,准确性提升22%,能支持更加广泛的场景。
上海人工智能实验室青年科学家 何聪辉
另外,论坛直击行业一线,邀请企业家代表分享实践案例。商汤科技大装置事业群解决方案总经理代继分享《大模型研发语料工程实践》,联通数据智能有限公司副总经理宋雨伦分享《构建高质量数据集联通实践》,游族网络股份有限公司首席战略官傅焜分享《超越文本与图像:游戏多模态实时语料的价值挖掘》。
商汤科技大装置事业群解决方案总经理 代继
联通数据智能有限公司副总经理 宋雨伦
游族网络股份有限公司首席战略官 傅焜
圆桌环节,由上海亿欧总经理缪国成主持,携手天娱科技首席数据官吴邦毅、脉策数据创始人汤舸、松应科技创始人聂凯旋、上智院主任研究员李吉羊、传播内容认知全国重点实验室学术带头人张冬明,以《什么是好数据?》为题,共话“好数据是什么、好数据在哪里、好数据需要通过怎样的机制来获得”。
2025世界人工智能大会“语料筑基 智生时代”语料创新发展论坛,不仅是库帕思自去年3月26日公司设立之日起,历经5个“百日攻坚”后的成果汇报,更是全国语料生态合作伙伴一年一度的盛会。从信息化到智能化,从BI时代到AI时代,库帕思携手生态合作伙伴们共同全面拥抱数据之变,在方法、技术设施和生态重构中找寻机遇、赢得未来。






- 点赞 (0)
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊