时隔4个月大模型能力大涨,晒出夸克健康搜索“全家福”。
作者 |  ZeR0
编辑 |  漠影
国内首个通过主任医师评测的大模型,已在夸克AI搜索上线。
智东西7月23日报道,今日,夸克宣布夸克健康大模型成功通过中国12门核心学科的主任医师笔试评测,创国内首例,展现出垂类大模型在医学领域的应用潜力。
12门核心学科分别是:普通内科学、普通外科学、妇产科学、儿科学、皮肤与性病、肿瘤内科学、耳鼻咽喉学、麻醉学、口腔医学、眼科学、精神病学
在垂类模型与通用模型对比中,夸克健康大模型在初级、中级、副高、高级医疗场景中的答题正确率均超过新版DeepSeek-R1和o3-mini,并呈现出难度越高、领先优势越明显的性能曲线,展现出在复杂医学推理任务中的突破。
这是继5月通过副主任医师职称考试后,夸克健康大模型能力的又一次升级。
“主任级AI医生”能力已集成到夸克的AI搜索中。
用户用夸克查询健康问题时,选择深度搜索即可调用,相当于配备了一个线上的专业医生。
夸克健康算法负责人徐健,夸克健康运营负责人、心内科副主任医师赵存忠,夸克健康产品负责人姚垚,与智东西等媒体进行深入交流,详细解读了夸克健康大模型的背后技术细节与夸克健康产品策略。
夸克健康大模型以通义千问为基础,针对医学垂类场景进行深度工程化。据夸克健康算法负责人徐健分享,其模型的核心特点与技术构建策略包括:
    • 知识性强,用高质量数据继续训练底座大模型;
    • 正确性对齐技术,把握住错误边界;
    • 引入慢思考能力,基于高质量推理训练数据,通过强化学习构建推理大模型,驱动模型在面对复杂医疗问题时,能够分阶段、层层深入地推导出最终答案,提升在案例分析题等上的效果。
    在接受采访期间,徐健、赵存忠、姚垚总结了夸克健康对风险控制的全方位约束策略:
      • 事前,通过底层算法和数据工作预防,产品满意度准确率达标后才会上线;
      • 事中,模型对敏感或不确定问题拒答,产品设计兜底话术、增加溯源引用,采取机器抽查、人工抽查等策略,并对用户问题分类界定、分层处理;
      • 事后,根据用户反馈,反复迭代改进模型。
      赵存忠告诉智东西,夸克健康大模型会在线满足普适化需求的基础上,后续针对各类有高频需求的主流学科去做针对性训练,对严肃医疗诊断类的一些专科或疑难杂症进一步深入。
      当智东西问到如何兼顾让用户易理解和表达准确性,姚垚告诉智东西,两者的提升并不矛盾,夸克健康在整体回复样本设计上追求对用户的实用性,在技术上持续提升准确率,在内容定义时关注让回答更易理解。徐健补充说,文字风格迁移不是技术难点,夸克多年来做内容科普使其擅长于此,大模型拟合能力非常强。
      姚垚透露说,夸克当前有2亿月活用户,健康需求很大,健康产品的信任感会影响对整个平台的信任。
      据分享,未来,夸克健康业务目标坚定,以满足C端用户科普需求为主,短期内聚焦帮用户解决健康问题,关注用户满意度、留存、活跃度等情况,不考虑做强商业化尝试。

      01.
      基于通义千问,训练临床思维,
      构建慢思考能力


      夸克健康大模型通过真实医生标注、“问—思—答”整组数据驱动强化学习,不仅掌握医学知识,而且医学思维的路径选择、证据整合与多解平衡能力。
      其核心突破之一,是构建出“慢思考能力”,打造多阶段慢思考推理系统,从表象判断到深度病因分析,学会医学临床诊疗思维。
      这一能力融合了链式推理与多阶段临床演绎路径建模,驱动模型在面对复杂医疗问题时分阶层层推导,先推病,再解题,从病史分析、初步诊断、鉴别诊断、结合选项分析到总结得出答案。
      而构建慢思考能力的前提,是拥有高质量推理训练数据。
      为此,夸克构建了“双数据产线 + 双奖励机制”的工程体系。
      训练数据上,将医学数据划分为“可验证”和“不可验证”两类,分别对应诊断类任务和健康建议类任务。
      夸克以“病药术检”任务为训练主线,构建有特色的医疗领域可验证推理任务,覆盖疾病推理、检查推理、疾病推理、手术推理、药品推理等。
      训练方法上,引入“过程奖励模型”和“结果奖励模型”,分别评估模型推理链的合理性与最终结论的准确性,根据反馈进行调整,显著提升模型的临床可解释性和推理一致性。
      其体系设计了多阶段强化学习流程,包括冷启动数据的严格人工校验、多轮样本筛选与难度递进训练策略,以及用于防止“高分投机”的作弊识别机制。
      谈到夸克健康大模型的优势,徐健总结了三点:(1)差异化,在专业数据投入更大精力;(2)产品具备更强实操性,提供明确的就医建议;(3)让内容变得更可信,主要策略包括加固循证、强化推理可解释性等。

      02.
      4大类数据建设和评估,
      三招降幻觉+提高准确率  


      优质数据建设、正确性对齐及循证技术、医疗慢思考推理能力,缺一不可。
      在构建大规模高质量医疗领域数据及语料上,夸克对4大类数据(资料库、病历、知识库、合成数据)进行建设和评估。
      1、全面的数据分类与评估:根据科室分布、实体、循证等级、meta信息等,筛选真正有价值的医疗高价值数据。
      2、语料探查技术指引目标:基于医疗强大的检索能力,进行数据层探查,搜索/知识覆盖率达到95%+。
      3、时效性更新技术:新热挖掘、数据接口轮询等,获得最新药品官方数据等。
      4、图谱及合成数据设计:知识转译、知识析构等。
      夸克遵循数据驱动的长期迭代主义,构建可规模化的优质数据合成产线和训练:精细治理诊疗数据,扩大可用数据量级;在强化过程中构建的推理过程和推理结果的准确奖励,复用在数据筛选中;模型和数据螺旋迭代升级的,自动化的数据分层采样管道,实现规模化的样本加工、合成和分布控制;人类专家集中产能处理痛点数据-冷启动中临床思维的标注
      为了提高专业性,夸克健康大模型拥有千人规模的专业医师标注团队,其中超过400名均为副主任医师及以上的高资历医疗专家。
      徐健说,用户原始数据不会被用于训练,只会将经过用户授权的数据脱敏加工后,再用于改进模型效果。
      健康医疗大模型的问答,容错率远低于常规通用大模型。夸克用三招来提高模型回答的准确性。
      第一招,通过训练的全链路正确性微调,严格控制模型内在幻觉。
      比如,药品相关信息如果输入错了,就会出现药不对症、可能影响健康的。对此,夸克在预训练知识注入阶段,覆盖国内外全部药品说明书;在用药能力微调(SFT)阶段,构建N个药品使用对齐任务,单独激发把事情做对的稳定性;在错误反馈对齐(RLHF)阶段,形成错误-正确的正负力,使用RM数据增强技术、负反馈抑制错误能力。
      第二招,构建百万量级临床术语集和知识图谱,通过底层的权威医学知识库,确保模型输出内容专业、及时。
      第三招,通过深度搜索技术及循证数据体系,强化外在正确性,让输出结果透明有依据。

      03.
      多类诊疗场景准确率与人类医生相当,
      主任医师现身给夸克“批卷” 


      从诊疗效果来看,在门诊常见病场景下,夸克健康大模型诊断top1准确率达到90.78%,与人类医生书写的病历准确率水平相当。在疑难病例上,模型top1准确率达到85.51%;单从诊断任务能力上近似可看成三级医院全科主任级别能力,足以作为大多数医生好用的助手。
      当然,考试只是衡量大模型的维度之一,实际体验才是硬本事。
      安贞医院心脏外科主任医师谢进生认为,夸克在一些问题上回答专业度比专业医生还要强。
      北京大学人民医院皮肤科主任医师、教授、硕士生导师李厚敏在试用夸克健康大模型后感受到危机感,认为这样的AI工具确实改变诊疗过程,为医生减负。
      她分别展示了从主任医师角度和从患者角度提问的示例。
      在一个从医生角度提问的案例中,李厚敏评价夸克给出的答案有这些亮点:方案全面,结构清晰,治疗分段合理,符合临床路径,实操指导性强,关注患者心理应对及长期管理。
      她也给出了如何做得更好的建议:方案中没有说明各阶段干预的时机、疗效观察点及联合治疗顺序,略欠动态管理指导价值。
      一类从患者角度的常见皮肤病提问是:脸上反复长痘,医生给开了激素类外用药,但自己比较犹豫,担心激素会让皮肤变薄、依赖,停药后会更严重,不敢用,该怎么办?
      李厚敏认为夸克在明确用药必要性方面的回复很科学,有助于缓解患者恐惧,并向患者提供多种替代方案选择、传达综合治疗管理理念。不过,回答中没有明确提及激素的特点和“缓撤药”、“维持期隔日/间断用药”等具体策略,略有欠缺关于定期复诊或建立长期随访计划的提示。
      在她看来,AI应用能够帮助皮肤科辅助诊断与分型,提高早期识别率,并优化随访管理与个性化治疗方案。
      精神科与皮肤科的需求有所不同。
      武汉大学人民医院精神卫生中心负责人、主任医师、教授、博士生导师王惠玲也用常用的专业临床问题来考验夸克。从结果来看,她评价夸克的回答逻辑清晰,符合临床实际流程,所给建议的操作性很强,符合临床实际处理习惯,策略制定有据可循。
      就优化方案而言,她建议在策略制定上应该更加重视患者可能存在的不良意念风险,建议增加干预自杀危机的响应策略。
      从患者角度,一类常见问题是:被医生诊断抑郁并给出用药建议,但担心服药会成瘾、带来巨大的副作用。
      王惠玲评价说,夸克的回答简单通俗地指出了患者的“成瘾”误区,可降低医患沟通成本,并分层列出常见及罕见副作用,在用药建议上还提供了辅助的非药物干预方式。不过回答中缺少在实际医患沟通中精神科医生对患者的“共情”,情感支持稍显不足。
      在她看来,AI应用能帮助精神科分析语音模式、书写内容、可穿戴设备数据等,量化患者的情绪波动,辅助识别早期恶化信号,为医生提供更客观的参考。另外,很多患者存在病耻感,在线匿名的AI心理教育工具或其他在线咨询入口,能让更多患者敢于迈出求助的第一步。
      需注意的是,AI无法替代医生精准评估不良意念所带来的风险,也很难在治疗不理想时用共情给患者足够宽慰。

      04.
      中国超50%医学生都在用夸克


      凭借在医学领域的专业性,夸克AI搜索吸引了一大批医学生和医生群体。
      据夸克健康运营负责人赵存忠分享,夸克健康产品主要面向C端,围绕两类场景,一是基于搜索场景的权威健康顾问,帮普通人解决日常健康问题;二是基于医护人员的专业成长助手,帮医学生解决涉及临床诊疗、学习、资料类、考试专业需求的专业问题。
      夸克健康为用户提供知识科普、生活指导、健康管理、疾病诊疗的全面服务,能提高健康知识的普及性、用户自我健康管理能力、全民健康素养,有效提高医疗资源可利用性和普及性。
      目前夸克健康积累的用户大多为年轻人,18-40岁居多,通常在上午开始搜索健康问题,晚上则是了解健康问题的最高峰。
      夸克健康在全国医学生中月活用户(MAU)已突破200万,覆盖率过半。他们广泛使用夸克做三件事:基础知识搜索、考试备考AI搜题、临床辅助诊疗。
      面向医学生,夸克做了三大核心需求产品:解题查解析(AI搜题),术语解释(专业问答),教材知识点(专业百科)。其专业搜索将逐步延伸到低年资医生等垂直人群,满足临床的知识查询和处理决策、用药需求,并涵盖高年资医生的科研、学术搜索及高效工作。

      05.
      晒夸克健康搜索“全家福”,
      做有温度的AI健康顾问   


      夸克的健康搜索内容体系,包括夸克健康百科、夸克健康问答等产品。
      夸克健康百科包含医典百科、就医指南;夸克健康问答包括通用问答、AIGC问答、SGS问答、深度搜索、健康助手自诊、学术搜索、包含专业资料的循证体系及知识图谱等,为用户提供权威、实用、精准的内容搜索。
      夸克健康医疗搜索产品的演进,从传统生产(外发人工生产)到AIGC(模型批量生产)再到SGS(模型即时生成),用户搜索字数表达明显增加,逐渐能精准满足复杂长尾问答需求,给出明确结论。
      其算法团队与医疗团队共同搭建循证体系,包含千亿级图谱病历、教材指南、文献论文、试题词典,提供专业检索。
      深度搜索、深度思考能力则提高了对问题理解的精准度,使模型对于问题的回复的思考路径拆解更合理、解答的逻辑性更好,居家缓解、就医推荐的实用性更强,与医院角色形成互补。
      夸克健康助手开发基于医学临床思维的健康自诊,可以为用户提供全面的自我判断和就医推荐,提供症状自查、报告解读、在线问诊、AI自测、健康计算等功能。
      该工具构建了基于医学知识系统的对话反问功能,可以在对话中收集足够的用户病症信息,给出推理分析,并给出实用的居家建议,判断病情需要就医,给出与科室推荐、检查建议,提供导医问诊服务。
      夸克健康大模型还能作为健康生活科普助手,生成满足饮食、健康、运动的科普内容及优质笔记,为用户提供精准生活指导。
      夸克健康利用AI相机功能为用户识热量、配料表分析、皮肤自诊等,提供健康饮食辅助决策及小病自查自管。比如拍张照,问AI这款零食健不健康、这个舌苔是否正常等。
      除了准确率高,夸克健康还注重做有温度的AI健康顾问,按照真实医生诊疗路径分阶段、分专科训练诊断能力,在提供精准推理诊断的同时,以共情化满足用户的心理感受。
      健康agent是一个全科智能协同中枢,定位全科健康管家,有两大核心能力:
      一是统一管理,全科健康管家统一管理信息和输入输出,用户健康问题需求由全科agent调度,
      二是分发协同,所有用户请求经过全科agent初步处理,根据干预措施调用其他子agent,输出最终行动方案。

      06.
      结语:健康大模型L4级基本到来,
      将惠及精准医疗科普


      在沟通会上,徐健总结了当前健康大模型能力水位:微软、OpenAI、讯飞等AI公司的模型或AI产品,在指定场景已做到与医生水平相当;在学术界,近1年Nature系列发了21篇医学大模型论文;在行业界,信通院发布《基于大模型的患者医疗服务应用场景及能力分级框架(2025年)》,提供了应用场景医疗服务能力的清晰分级。
      L1级是信息辅助,L2级是单任务智能辅助,L3级是多任务智能辅助,L4级是高级协同决策辅助,最高等级L5智慧协同创新辅助能发现一些医生在诊疗过程中想不到的创新做法。
      参考这个分级,今天,能与医生高级协同决策辅助的copilot助手(L4级别)基本到来,也将更好地帮助普通用户在健康问题上减少医患信息差。
      夸克健康大模型及产品矩阵,正通过引入更强的推理能力,突破技术瓶颈,帮助医生节约时间、放大专业价值,并助力缓解医疗资源短缺问题,实现更加精准的医疗科普。

      (本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)