全文约 1500 字,预计阅读时间 5 分钟

新闻资讯

百度文心ERNIE 4.5模型系列发布

百度近日正式开源了文心ERNIE 4.5模型系列,包括多模态版本和参数量从0.3B到424B不等的MoE模型。其中,ERNIE 4.5 21B A3B模型表现尤为出色,在多数基准测试中超越了参数量更大的Qwen3 30B A3B模型。ERNIE 4.5的技术报告详细介绍了多项先进技术,如47% MFU、2比特量化、MoE路由器正交化损失以及独立的文本和视觉专家,这标志着FP8训练和MoE技术的新标准。此次开源还包括完整的模型权重,并支持llama.cpp和vLLM等框架,为开发者提供了前所未有的开放性和便利性。

https://yiyan.baidu.com/blog/zh/posts/ernie4.5/

Perplexity & Comet:AI浏览器新进展

Perplexity的CEO Arav Srinivas近期在社交媒体上分享了他们办公室带有Netscape标志的照片,随后又发布了经典的Netscape标志图片。更引人注目的是,他宣布Perplexity的AI浏览器Comet现在可以玩宝可梦游戏。这一进展表明Comet在AI驱动的浏览体验方面取得了新的突破,展示了其在交互性和娱乐性方面的潜力。Comet浏览器旨在通过集成Perplexity AI作为主要搜索引擎,重新定义网页浏览体验,并已向部分Windows用户开放测试。

https://www.perplexity.ai/comet

阿里巴巴发布Qwen-TTS:多语种多方言语音合成新突破

阿里巴巴近日通过API发布了Qwen-TTS,这是一款基于数百万小时音频数据训练的文本转语音(TTS)模型。Qwen-TTS支持7种双语语音和3种中国方言,在语音合成领域取得了重大突破,能够生成超高真实感和多方言支持的语音,其真实感媲美真人发音。该模型的发布,将为教育、娱乐、智能客服等多个场景带来更自然、更具情感的语音交互体验。

https://qwenlm.github.io/zh/blog/qwen-tts/

微软AI医疗诊断:MAI-DxO超越人类医生

微软AI近日发布了一项关于AI诊断协调器(MAI-DxO)的研究,该系统能够通过AI模型委员会协作诊断复杂的医疗病例。研究结果显示,MAI-DxO在特定设置下表现优于个体医生,在具有挑战性的新英格兰医学杂志(NEJM)病例中,MAI-DxO的诊断准确率高达85%,而人类医生仅为20%。这一突破性进展表明,大型语言模型(LLMs)能够隐式执行信念更新并寻求最大预期效用,为医疗诊断领域带来了新的可能性。

https://microsoft.ai/new/the-path-to-medical-superintelligence/


小工具

DeepEval:开源大模型评估框架

DeepEval是一个简单易用的开源大语言模型评估框架,用于评估和测试大语言模型系统。它类似于 Pytest,但专门用于对大语言模型的输出进行单元测试。DeepEval 融合了最新的研究成果,基于诸如 G-Eval、幻觉、答案相关性、RAGAS 等指标来评估大语言模型的输出,该框架使用大语言模型和各种其他自然语言处理模型,这些模型可在您的本地机器上运行以进行评估。

https://github.com/confident-ai/deepeval


-- 完 --


机智流推荐阅读

1. 空间智能,AI 的终极前沿: 李飞飞YC创业营万字演讲

2. 搜索更少,答案更准!ByteDance与NTU联合推出MMSearch-R1,革新多模态信息检索

3. 10万奖金池!书生大模型实战营「沐曦魔乐专场」等你来

4. 清华字节Seed推出PAROAttention:巧用Token“重整术”,视觉生成模型无损加速2.7倍!

欢迎在「机智流」公众号后台回复「cc」,加入机智流大模型交流群;回复「HF」即可加入我们不定期举办的HuggingFace Daily Paper高赞论文分享活动群,也会分享大厂AI论文快讯。与我们一起探索 AI 与人类潜能的未来,一起共赴 AI 浪潮!