新闻资讯

百度文心ERNIE 4.5模型系列发布

百度近日正式开源了文心ERNIE 4.5模型系列，包括多模态版本和参数量从0.3B到424B不等的MoE模型。其中，ERNIE 4.5 21B A3B模型表现尤为出色，在多数基准测试中超越了参数量更大的Qwen3 30B A3B模型。ERNIE 4.5的技术报告详细介绍了多项先进技术，如47% MFU、2比特量化、MoE路由器正交化损失以及独立的文本和视觉专家，这标志着FP8训练和MoE技术的新标准。此次开源还包括完整的模型权重，并支持llama.cpp和vLLM等框架，为开发者提供了前所未有的开放性和便利性。

https://yiyan.baidu.com/blog/zh/posts/ernie4.5/

Perplexity & Comet：AI浏览器新进展

Perplexity的CEO Arav Srinivas近期在社交媒体上分享了他们办公室带有Netscape标志的照片，随后又发布了经典的Netscape标志图片。更引人注目的是，他宣布Perplexity的AI浏览器Comet现在可以玩宝可梦游戏。这一进展表明Comet在AI驱动的浏览体验方面取得了新的突破，展示了其在交互性和娱乐性方面的潜力。Comet浏览器旨在通过集成Perplexity AI作为主要搜索引擎，重新定义网页浏览体验，并已向部分Windows用户开放测试。

https://www.perplexity.ai/comet

阿里巴巴发布Qwen-TTS：多语种多方言语音合成新突破

阿里巴巴近日通过API发布了Qwen-TTS，这是一款基于数百万小时音频数据训练的文本转语音（TTS）模型。Qwen-TTS支持7种双语语音和3种中国方言，在语音合成领域取得了重大突破，能够生成超高真实感和多方言支持的语音，其真实感媲美真人发音。该模型的发布，将为教育、娱乐、智能客服等多个场景带来更自然、更具情感的语音交互体验。

https://qwenlm.github.io/zh/blog/qwen-tts/

微软AI医疗诊断：MAI-DxO超越人类医生

微软AI近日发布了一项关于AI诊断协调器（MAI-DxO）的研究，该系统能够通过AI模型委员会协作诊断复杂的医疗病例。研究结果显示，MAI-DxO在特定设置下表现优于个体医生，在具有挑战性的新英格兰医学杂志（NEJM）病例中，MAI-DxO的诊断准确率高达85%，而人类医生仅为20%。这一突破性进展表明，大型语言模型（LLMs）能够隐式执行信念更新并寻求最大预期效用，为医疗诊断领域带来了新的可能性。

https://microsoft.ai/new/the-path-to-medical-superintelligence/

小工具

DeepEval：开源大模型评估框架

DeepEval是一个简单易用的开源大语言模型评估框架，用于评估和测试大语言模型系统。它类似于 Pytest，但专门用于对大语言模型的输出进行单元测试。DeepEval 融合了最新的研究成果，基于诸如 G-Eval、幻觉、答案相关性、RAGAS 等指标来评估大语言模型的输出，该框架使用大语言模型和各种其他自然语言处理模型，这些模型可在您的本地机器上运行以进行评估。

https://github.com/confident-ai/deepeval

-- 完 --

机智流推荐阅读：

1. 空间智能，AI 的终极前沿: 李飞飞YC创业营万字演讲‍

2. 搜索更少，答案更准！ByteDance与NTU联合推出MMSearch-R1，革新多模态信息检索‍‍

3. 10万奖金池！书生大模型实战营「沐曦魔乐专场」等你来

4. 清华字节Seed推出PAROAttention：巧用Token“重整术”，视觉生成模型无损加速2.7倍！