我翻了三个 AI Coding 工具的源码,发现了这些反直觉的设计
本文由 AI Insight 研究团队 基于三个开源仓库的源码阅读与交叉验证撰写。所有代码片段均标注 GitHub 链接(共 12 篇信源),但开源项目迭代很快——如果你读到时某段代码已经变了,欢迎来 GitHub 指正。 我翻了三个 AI Coding 工具的源码发现了这些反直觉的设计 AI Insight 研究团队 ...
2026-02-15 15:17:19
字节豆包 Seed 四线齐发,中国 AI 的逆袭时刻到了?
本文由 AI Insight 研究团队 基于 Claude Opus 4.6 等 AI 模型,耗费大量 Tokens 进行信息采集、交叉验证与反复校订。所有事实性论断均标注信源引用(共 24 篇),但 AI 生成内容仍可能存在偏差或遗漏——请读者仔细甄别,以原始信源为准。 AI INSIGHT · 深度研报三年河东:从 Seed 2.0 全家桶看中美 AI 并跑新格...
2026-02-14 19:08:49
SpaceX-xAI 万亿合并余震、Anthropic 200亿融资、安全高管出走 | AI 日报
AI 日报 2026.02.14AI 日报 · 2026.02.14机智流 AI 研报 · 每日精选 · 13 条资讯 今日重点 TOP 1 SpaceX-xAI 万亿美元合并后震荡:多位联合创始人离职,Musk 宣布 xAI 重组 CNBC · 融资并购 史上最大科技合并案持续发酵。SpaceX 以 1.25 万亿美元估值完成对 xAI 的收购后,包括 Jimmy Ba、Christian Szegedy、...
2026-02-14 10:51:43
刚刚 Gemini 3 Deep Think 升级:推理更强、科学更深,Ultra 可用
AI INSIGHT · 官方博文翻译 原文来源:Google Blog · 2026.02.12 | 含 @GoogleDeepMind 推特补充 Gemini 3 Deep Think:推动科学、研究与工程的前沿 Gemini 3 Deep Think: Advancing science, research and engineering 我们最专业的推理模式现已升级,用于解决现代科学、研究与工程挑战。 Our most specialized reasoning...
2026-02-13 11:02:27
vLLM 破 7 万 Star、Anthropic 斥资推 AI 政策|AI 日报
AI INSIGHT · 每日精选最新资讯共 15 条资讯 行业 宝玉:更新 X 推文下载 Skill,支持图片和视频下载宝玉更新了 baoyu-danger-x-to-markdown Skill,现在可以将 X 推文(含 Thread、文章)下载为 Markdown,并支持图片和视频本地下载。提醒使用小号操作。@dotey · 行业https://x.com/dotey/status/20218...
2026-02-12 22:21:02
智谱 GLM-5 发布观察:745B MoE、华为芯片训练、港股暴涨 60%
AI INSIGHT · 深度观察由 AI 收集生成,可能有幻觉未全文校正可能未来资讯拼的可信度是另一方面,欢迎批评2026 年 2 月 11 日2 月 11 日,智谱 AI(Z.ai)正式发布第五代大语言模型 GLM-5。这款 745B 参数的 MoE 架构模型,在发布首日就引发 Z.ai 平台流量暴涨 10 倍,此前以「Pony Alpha」的匿名身份在 OpenRouter 上悄然...
2026-02-11 22:38:54
GLM5、MiniMax等重磅发布|AI 日报
AI INSIGHT · 每日精选最新资讯共 15 条资讯 🧠 大模型 MiniMax 发布 M2.5 模型:跳过 M2.2 直接大版本升级,与 GLM-5 同日竞技MiniMax 出人意料地跳过 M2.2,直接发布 M2.5。新模型在编程和 Agent 能力上大幅提升,与智谱 GLM-5 同日发布,上演中国 AI 公司版的 OpenAI vs Anthropic 对决。@MiniMaxAI ·...
2026-02-11 21:59:18
白嫖党狂喜!3万+免费 Skills让你秒变全能选手
Agent Skills真是越来越火了,上一期文章结尾我还说想找个好用的 Skills 管理工具。结果,Vercel 直接放大招——不仅开源了通用安装工具,还上线了 Skills 专属"应用商店" skills.sh。 今天就手把手教你,怎么方便快捷的白嫖各路大神的 Skills。 skills.sh 全网好用的 SKILL 都在这了 年初,Vercel 推出了 skills.sh[1]。这是...
2026-02-09 23:24:22
当 AI 开始雇佣人类 |RentAHuman.ai 平台调研及悬赏任务分析
AI-Insight 将持续为大家带来「与佬有关」「对佬有用」的高质量 AI 资讯和洞见!https://ai-insight.org/reports/rentahuman年度盘点广告位 「寒假」第六期书生大模型实战营火热进行中! 扫码参加曦云 C 系列算力下「公式识别 RL/SFT 挑战赛」,前 60 名共享 10 万奖金池。 扫码参加昇腾 NPU 算力下「公式识别 RL/SFT 练习...
2026-02-08 17:53:38
LangGraph实战:用“流程图”思维构建可控的AI Agent系统
> 作者:李剑锋 简介 随着 Agent 概念的普及,以 Coze、Dify 为代表的低代码 / 无代码平台迅速兴起。这类平台通过可视化配置和模块化编排,大幅降低了智能体应用的使用门槛,使非技术用户也能快速构建 AI 应用,在原型验证和轻量场景中具有明显优势。 但当开发者开始将 Agent 系统真正用于业务落地时,低代码平台的局限...
2026-02-05 20:21:45
突破机器人操控 “最后一公里”!北大等机构提出 TC-IDM,让视觉规划精准落地物理执行,零样本操控成功率大幅提升
图片由AI生成 在机器人操控领域,如何让机器精准理解视觉信息,并转化为流畅的物理动作,一直是困扰科研人员的核心问题。传统的视觉-语言-动作(VLA)模型,虽然凭借大规模数据集的加持展现出一定能力,但在面对分布外任务、变形物体交互等场景时,往往显得力不从心。而以生成式世界模型为代表的新范式,虽然能提供 “视觉...
2026-02-04 23:37:31
还在为数据发愁?清华上交等联合综述:详解LLM如何让数据准备“自动化、智能化”
一句话总结: 上海交通大学、清华大学、微软研究院等机构联合发布综述论文,系统梳理了LLM在数据准备(清洗、集成、丰富化)三大核心任务中的应用现状、技术路线与未来挑战。 原文链接: https://huggingface.co/papers/2601.17058 在数据驱动的时代,企业或者研究机构每天都要处理海量的原始数据。然而,这些数据往往存在...
2026-01-30 22:40:50
LangChain版“Claude Skills”实战详解:为智能体赋予动态工具调度与复杂上下文治理能力
> 作者:李剑锋 简介 在中,我们已经系统讲解了智能体在执行任务过程中对工具的使用方式。对于大模型而言,其如何理解并使用工具,通常主要依赖以下三个方面: 大模型自身在预训练阶段所获得的通用知识与能力 工具本身的描述信息,例如工具的功能、参数及调用方式 开发者编写的系统提示词与用户提示词,用于引导模型的整...
2026-01-29 21:35:37
智能体推理能力新标杆!美团开源560B MOE模型LongCat-Flash-Thinking-2601
图片由AI生成在人工智能的浪潮中,大型语言模型(LLM)已经从单纯的“知识库”进化为能够进行复杂推理的“思考者”。然而,真正的智能不仅在于内部的思辨,更在于与外部世界的有效互动。当模型能够像一个智能代理(Agent)一样,主动调用工具、搜索信息、执行代码并根据环境反馈调整策略时,它才真正具备了解决现实世界复杂问题...
2026-01-26 22:56:00
上周 HF 论文 TOP 20|Agent 推理综述, EvoCUA, Being-H0.5 等
(1) Agentic Reasoning for Large Language Models论文 ID:2601.12538论文简介:由伊利诺伊大学厄巴纳-香槟分校等机构提出了Agentic Reasoning框架,该工作系统性地重构了大语言模型的推理范式,通过将LLMs转化为自主代理实现动态环境中的规划、行动与持续学习。研究从基础能力、自我演化和多智能体协作三个维度构建代理推...
2026-01-26 22:56:00
媲美Gemini 2.5 Pro!阶跃星辰STEP3-VL-10B技术报告:统一预训练+并行协同推理,多模态模型迎来轻量化革命
图片由AI生成 在多模态大语言模型(MLLMs)的发展历程中,“越大越强”似乎早已成为行业默认的共识。以Gemini-3-Pro、GPT-5.2为代表的闭源前沿模型,凭借千亿甚至万亿级别的参数规模不断突破多模态智能的边界,但动辄数百亿、上千亿的参数体量也带来了极高的计算成本和API调用成本,让这类模型难以落地到实际应用场景中;而...
2026-01-18 22:47:01
从工作流到自主决策:Anthropic 揭秘高效智能体的工程方法论
一句话总结:这篇文章深入探讨了如何构建高效智能体,分享了Anthropic工程团队在智能体架构、工作流程和工具设计方面的宝贵经验,并为开发者提供了实际的应用指导。 原文链接:https://www.anthropic.com/engineering/building-effective-agents 智能体(Agent)作为人工智能领域的关键概念,近年来在各行各业得到了广泛应...
2026-01-11 20:30:00
2026 年,Agent 会把世界推向哪里?
2026伊始,AI好消息不断,先是 GLM 和 MiniMax 香港IPO在即,接着 Manus 被 Meta 天价收购,字节也上线了海外 Agent 。2026年的 Agent 似乎找到了向“钱”看齐的路子 — 从“某个应用里的功能”,变成“组织运行方式的一部分”。 Google 在其最新的《AI agent trends 2026》[1]报告里给出的判断很直接:决定性的变化不是遥远的 AGI...
2026-01-05 20:00:00
聊聊大模型推理系统之 TimeBill:大模型也能“守时”?时间预算推理如何兼顾速度与质量
图片由AI生成 在自动驾驶、工业控制、机器人等时间关键系统(time-critical systems)中,大语言模型(LLM)的推理必须在严格的时间预算内完成——晚 1 秒,可能就是事故。然而,LLM 的自回归生成机制导致其推理时间高度不确定,现有方法要么超时失败,要么为“快”牺牲回答质量。 来自上海交通大学的研究团队提出 TimeBill——一...
2025-12-30 20:43:42
LLM内部竟藏着众多策略模型?自所&腾讯团队首次揭示大模型RL新机制
> 本文来自社区投稿,作者:Trae1ounG 图片由AI生成 当前,大模型+强化学习成为AI领域极为热门的研究。现有的强化学习(RL)方法通常将大语言模型(LLM)视为一个单一的整体策略进行优化,主要的算法优化集中在表层的奖励设计等方面,却忽略了模型内部复杂的层级演化机制。 大模型的黑盒特征通常阻碍了我们进一步了解其...
2025-12-29 20:48:18
使用指南|谷歌官方发布的最强文生图模型Nano Banana Pro使用指南来了!
前几天,Google 官方更新了 Gemini 3 Pro Image(也就是我们熟知的 Nano Banana Pro)的详细使用指南。作为 Gemini 系列中顶级的图像生成与编辑模型,它专为专业级视觉资产生产而设计,能够通过复杂的多轮对话完成高难度创作与修改任务。无论是高分辨率输出、精准的文字渲染,还是结合 Google 搜索进行事实核查,Gemini 3 P...
2025-12-28 17:36:17
2025「开创未来」年度黑客松|奖金丰厚,Token管够!
图:Scarlett荷淼、Sunny林琅 文:水中鱼、Kelen -- 完 --
2025-12-25 19:21:29
规划能力远超GPT-4近30个基点!港科广等团队解锁 AI 物理智能新路径,机器人操控再升级
图片由AI生成 当你戴着运动相机做饭、修理家电时,镜头记录下的不仅是动作,更是“眼睛看到的场景+大脑的决策+手部的交互”——这种第一人称(自我中心)视角的体验,正是人形机器人最需要的“生存技能”。毕竟,机器人的感知、规划和动作都依赖于自身的视角,而非上帝视角的观察。 但长期以来,主流视觉语言模型(VLM) 的训练...
2025-12-24 23:39:28
H-Neurons:大语言模型中幻觉相关神经元的存在、作用及其起源
> 本文转载自「OpenBMB」 近年来,大语言模型(LLMs)在问答、推理与生成任务中展现出卓越能力,但其幻觉(Hallucination)问题仍然是制约实际应用的核心挑战之一。模型有时会在缺乏事实依据的情况下给出看似合理却错误的回答,甚至在面对明显错误或虚构的信息时依然“自信作答”。 为了解决这个问题,学术界和工业界尝...
2025-12-24 23:39:28
颠覆想象!逐际动力TRON 2重磅发布:一个通用本体,三种构型任意切换,轻松适应全地形全场景
在具身智能技术飞速发展的今天,机器人已逐渐渗透到科研、工业、安防等多个领域,但传统机器人“一机一用”的固化模式却成为了行业发展的绊脚石。科研机构为不同实验项目需采购多台专用设备,企业为适配不同生产环节要重复投入硬件成本,不仅资金压力大,后续设备维护更是繁琐复杂。 更令人困扰的是,切换应用场景时,软件...
2025-12-19 08:00:00
400万token上下文无压力?阿里通义QwenLong-L1.5刷新长文本推理纪录,性能比肩GPT-5
> 本文由 Intern-S1 等 AI 生成,机智流编辑部校对 引言:当模型能“记住整本书”,它才能真正“思考” 在大语言模型(LLM)竞赛日益白热化的今天,上下文长度早已不再是衡量模型能力的唯一指标。从32K到128K,再到百万甚至千万级token窗口,硬件和架构的突破让“看得更长”成为可能。然而,“看得长”不等于“想得深”——许多模型...
2025-12-17 08:00:00
聊聊大模型推理系统之 XY-Serve:华为&清华团队如何在昇腾NPU上实现95%吞吐提升?
图片由AI生成 在大模型推理系统中,输入/输出长度高度动态、注意力掩码结构复杂多变、Prefill/Decode/Verify 阶段混合调度等问题,正严重制约 AI 加速器(尤其是华为昇腾 NPU等基于分块(tile-based)编程模型的专用芯片)的吞吐效率。面对行业对低延迟、高性价比推理服务的迫切需求,华为与清华大学联合团队推出 XY-Serv...
2025-12-16 19:58:02
2025最新rag综述(2)——RAG技术发展流程、最新技术挑战与系统级优化
一句话总结:该综述系统梳理了 RAG 技术的发展脉络,从早期开放域问答任务中的原型,到近年来多领域大规模应用的系统化演化,进行了全面而深入的总结。 前文速览:RAG 是当前提升大语言模型回答质量与准确性的最常用技术形态之一,也很可能已经成为全球范围内最普遍的大模型应用架构。在中,我们已系统介绍了:RAG 是什么、...
2025-12-14 22:32:37
对抗谷歌Gemini 3的王牌来了?GPT-5.2实测结果全公开,考公、编程、图片标注、大海捞针不在话下!
昨晚我们刚说到,今天(当地时间12月11号)OpenAI就正式放出了这款被定位为“迄今最强专业知识工作模型”的新系统GPT-5.2[1],已全面向ChatGPT订阅用户开放,在升级0.71.0版本后的Codex平台也同步上线。 Codex升级到最新0.71.0后可以使用GPT-5.2 官方账号登录的Codex也可使用GPT-5.2模型 从紧急应对谷歌Gemini 3的“红色警报...
2025-12-12 22:55:24
vLLM-Omni 上线:多模态推理更简单、更快、更省
我们正式发布 vLLM-Omni:这是 vLLM 生态向“全模态(omni-modality)”时代迈出的关键一步,专门为新一代看得见、听得懂、会说话、能生成多种媒介的模型设计的推理框架。 自项目开始,vLLM 一直专注于为大语言模型(LLM)提供高吞吐、低显存的推理能力。但今天的生成式模型已经远不止“文本输入、文本输出”:新的模型可以同...
2025-12-02 11:13:16