资讯配图资讯配图

火山引擎AI全家桶上新!
作者 |  ZeR0
编辑 |  漠影
智东西7月30日报道,今日,火山引擎发布全新豆包·图像编辑模型3.0、豆包·同声传译模型2.0,宣布扣子开源版正式上线,全新升级豆包大模型1.6系列,发布企业自有模型托管方案、Responses API等多个模型服务及工具产品,升级HiAgent 2.0、PromptPilot等工具,为企业和开发者构建Agent、落地AI夯实基础设施。
在回顾了近期豆包大模型取得的一系列成绩后,火山引擎总裁谭待强调,AI云原生是企业在AI时代构建好Agent的创新发展的关键。基于这样的观察和思考,火山引擎持续优化AI云原生全栈服务,支撑Agent开发与落地,帮助企业开发者在AI时代更好地发展。
资讯配图

01.
图像编辑模型3.0:
动嘴P图时代来了,一句话指哪改哪


火山引擎总裁谭待发布全新豆包·图像编辑模型3.0和豆包·同声传译模型2.0。
豆包·图像编辑模型SeedEdit 3.0显著优化了指令遵循能力、图像保持能力、图像生成质量,优化了“动嘴P图”的效果和效率,可广泛应用于影像创作、广告营销、游戏宣传等领域。
无论是变成吉卜力风格、调整光影、P掉路人、把线稿变彩图、替换背景,该模型都能得心应手。
资讯配图
用户通过自然语言指令,即可完成消除多余内容、改变光影效果、替换文字等操作。该模型具备对风格、结构与语义的精准控制力,能够像人类大脑一样理解指令、深度思考,解锁更多创新的修图场景,例如图像风格转换、变换材质、变化人物姿势、根据提示词进行推理等P图玩法
豆包·图像编辑模型SeedEdit 3.0基于文生图模型 Seedream 3.0,叠加多样化的数据融合方法与特定奖励模型,可支持1K以上高清图像的生成与处理,在对编辑区域进行精细自然调整的同时,能高度还原并保留图像主体、背景及细节信息。
动动嘴就能精准P图的时代,真的来了。
比如你可以要求人物长发变短发、改变姿势坐在椅子上,P图后背景、人物面部特征等细节无损。
资讯配图
你也可以精准锁定其他区域,比如要求只修改毛衣区域颜色和纹理并添加项链。
豆包·图像编辑模型3.0只瞄准文字区域,字体、光影会自动匹配原图风格,智能填充周围纹理;还能让黑夜秒变阳光明媚的白昼,光影自然过渡,建筑、树木细节清晰锐利,毫无涂抹感或分辨率下降。
此外,该模型可以理解“发酵”过程,生成体积膨大、充满气泡的发酵面团图。并且基于面团状态进行推理,在保持面团主体关联性的前提下,生成金黄酥脆、香气四溢的面包图。
资讯配图
实用玩法很多,比如让它“去掉所有路人”、“消除文字”、“给黑白照片上色”,或是给照片、设计换个光影氛围或风格。
企业用户可在火山方舟平台调用该模型API,个人用户可使用即梦或豆包App的“豆包P图”功能体验。

02.
同声传译模型2.0:
3秒超低延迟,0样本声音复刻


传统翻译系统通常依赖于“级联模型”,即多个模块相互串联,依次处理语音识别、翻译、声音复刻和语音合成等任务,翻译结果不够连贯、处理速度慢。
豆包·同声传译模型Seed-LiveInterpret 2.0做到“边听边说”,支持全双工语音理解和生成框架,将传统机器同传的语音延迟从8-10秒降低到2-3秒,实现文本与语音的同步生成;无需提前录制,一边说话一边采样,实现0样本声音复刻,让同一个人同音色开口说外语,甚至匹配方言口音,大幅提升跨语言沟通沉浸感和效率。
资讯配图

03.
豆包大模型1.6升级:
极速版百万token输入仅0.15元


豆包大模型1.6系列模型能力升级。Doubao-Seed-1.6-thinking-0715深度思考模型增强代码、推理和视觉理解能力,Doubao-Seed-1.6-flash-0715模型能力更全、速度更快、价格更低,Seed1.6-embedding模型可构建强大的多模态企业还是问答,实现全模态混合检索和自定义指令增强。
资讯配图
火山引擎智能算法负责人吴迪谈道,构建AI应用有4大挑战:
    • 模型:在业务落地中选择更强的模型;
    • 性能:高质量的吞吐和延迟体验会变得越来越重要;
    • 安全:重中之重是取得更多的客户信任;
    • 工具:多步骤复杂任务和工具使用的能力,会逐渐渗透到广大企业的核心业务中,为额客户创造价值。
    应对这些挑战,豆包大模型和火山方舟以更强的模型、更低的价格、更易落地的方案,助力业绩提升。
    极速版Doubao-Seed-1.6-flash模型服务于对延迟和成本敏感的客户,具有能力全、速度快、价格低的特点,在保持出色视觉理解能力的同时,升级了代码、推理、数学等大语言模型能力,非常适合智能巡检、手机助手、智能硬件等对模型效果、速度和成本都有要求的大规模商业化场景。
    该模型具有业界领先的极低延迟,每token延迟(TPOT)仅10毫秒,在输入文本长度0-32k的区间中(企业使用量最大),每百万tokens输入仅需0.15元,输出仅1.5元,同时还具备出色的视觉理解能力。
    在一个真实的家用安防客户案例中,Doubao-Seed-1.6-flash帮助客户将输出延迟降低60%以上、端到端性能提升50%以上,产品成本降低70%。
    资讯配图
    吴迪宣布,Doubao-Seed-Translation多语言文本翻译大模型正式开源
    豆包最新翻译模型支持28种语言,打破沟通壁垒,针对法律条文、科技用语、文言文领域的专业术语或复杂文本都能精准把握语境,提供高质量的翻译。
    资讯配图
    火山疫情全模态向量化模型Seed1.6-Embedding带来三大突破:全面效果领先,首次实现“文本+图像+视频”混合模态的融合检索,升级自定义指令能力,让向量生成能更贴合各类业务需求。该模型在权威测评中包揽多模态全面任务及中文文本的最优成绩,可助力企业构建更强大的多模态知识库。
    资讯配图
    例如在电商场景,你可以强调价格与材质的相似性;在影视领域,你可以强调文字剧情与角色的精准匹配。这使得模型更灵活,更容易被集成到企业现有业务流程中,大幅降低业务落地门槛。
    目前Seed1.6-Embedding已全面上线火山方舟。
    Viking DB是字节跳动自研的高性能向量数据库,面向全模态进行多项升级。
    一是全介质索引升级,从内存索引(适合高并发中等数据规模,亿级及以下)、磁盘索引(适合地并发超大数据规模场景,十亿及以上)到GPU索引(超过并发超大数据规模场景),打通了亿级数据跨介质检索能力。
    二是更高的性价比,在数亿索引数据规模下,相比传统内存方案可将成本降低75%。
    三是升级全模态表征能力,实现更易用的文本、图像、视频端到端一键向量化。用户只需抓住原始数据,系统就能自动完成向量化。
    资讯配图
    例如博查致力于提供AI时代的知识搜索创新,服务了4000多家企业和2万多名开发者,承接着国内超过60%的AI应用所需的联网搜索需求。火山引擎VikingDB协助博查改善了客户体验。
    以向量数据库VikingDB为基础,火山引擎还打造了方便易用的升级版知识库,支持图文视频全模态处理和混排输出,在国内外诸多评测中展现出了更好的效果。
    对于很多希望使用火山知识库的开发者,火山引擎进一步推出新的标准版,价格仅为旗舰版的1/10
    资讯配图

    04.
    扣子核心能力开源,
    在火山引擎可自动化部署


    7月26日,火山引擎做出一个重要决定:AI Agent开发平台扣子将核心功能开源
    本次开源覆盖扣子平台最核心的两个项目: 扣子开发平台(Coze Studio)、 扣子罗盘(Coze Loop),并采用没有任何附加条件的Apache 2.0许可证开源,用户可在GitHub下载。
    扣子开发平台是一个一站式AI Agent可视化开发工具,可快速实现AI Agent的开发创建、调试和部署;扣子罗盘是一个聚焦AI Agent的全流程管理系统,帮助开发者实现Agent从开发到运维的全链路管理。
    扣子开源版上线受广受欢迎,开源仅3天,扣子开发平台在GitHub上星标过万,扣子罗盘星标超过3000。
    资讯配图
    HiAgent为扣子开源版提供了全面支持。
    企业AI平台产品HiAgent可调用扣子开源版提供的智能体搭建和运维能力,并通过共享Agent标准,支持扣子开源版智能体的纳管。
    火山引擎的云基础产品也将为扣子开源版提供高效、稳定、可靠的基础设施支持。开发者可一键拉起资源,完成部署。
    资讯配图
    还有一系列优惠政策向新用户提供。
    火山引擎AI开源矩阵越来越强大,帮助企业做好数据,帮助开发者更好地构建AI应用,为AI开源生态繁荣贡献力量。
    资讯配图

    05.
    企业自有模型托管方案发布,
    通过火山方舟模型单元部署 


    针对有模型定制需求的企业客户,火山引擎发布企业自有模型托管方案
    依托火山方舟模型单元,企业无需运维底层GPU资源,也不用进行复杂的网络和调度配置,就能在火山方舟上实现自研模型的全托管,并在推理服务中享受火山方舟极致的弹性算力资源,大幅降本增效。
    资讯配图
    在算力成本上,企业可自主选择部署方式、机型,并设置弹性规则,更精细地控制首Token时延、模型吐字延迟,且无需为业务低谷期付费,最终实现更高的资源利用效率。
    此外,全托管的企业自有模型,还能享受火山方舟上的全套开发工具、MCP服务等生态配套。
    火山方舟模型单元已在火山方舟上开放邀测,可申请体验。

    06.
    Responses API上线,
    助攻多模态Agent高效开发


    多模态模型统一、多模态模型API的统一,是当前大模型发展的重要趋势。
    为此,火山方舟平台升级了API体系,推出Responses API
    该API具备原生上下文管理能力,支持多轮对话的链式管理,可无缝衔接文本、图像、混合模态数据,结合cache能力后能大幅降低延迟和成本,在很多典型应用里,整体成本下降幅度可达80%
    此外,Responses API支持自主选择调用工具,用户发起单次请求,即可联动多个内置工具、自定义函数及多轮模型组合响应,解决复杂Agent任务,让Agent开发更加省时省力。
    例如,搭建一个智能助手Agent,传统构建方法要写463行代码,用Responses API仅需60行代码,开发时间可以从1-2天缩短到1小时,大幅提升效率。在学习陪伴场景,对话式Agent需要兼顾情绪引导、英语陪练、百科问答等多种能力,Responses API在帮助客户降低延迟的同时,将成本进一步节约超50%,并让开发更简易。
    资讯配图

    07.
    PromptPilot升级:实现更高效提示词调试,从“碰运气”到“精准调控”


    写好提示词(Prompt)是做好AI应用的第一个重要部分。
    对提示词工程有几个基本判断:模型越强大,问出好问题带来的正向价值越大。很多高价值问题没有标准答案,如何让模型理解需求、服从产品要求是一个长期存在的重要实践。提示词工程本质上是一个搜索问题,一切搜索问题长期都将由算法来解决。
    实际落地过程中也会遇到一些挑战,比如如何写出一个高质量的Agent、如何提升模型落地效果、怎么定义目标、如何快速实现模型+业务落地的通路?……
    PromptPilot通过引导交互,帮助用户明确任务意图和评估标准;实现高效迭代,像积累数据一样积累Case,通过SDK调用,构建Case雷达;回顾整个过程。深度优化器融合了先进优化技术,模拟人类反思,类比错误总结能力,实现提示词的全自动优化,全流程支持联网AI搜索和自定义知识库,确保信息实时性和专业性,最后给出可视化报告,通过图表数据比对优化前后的效果。
    资讯配图
    火山引擎宣布PromptPilot全新升级,将提供更广泛的模型优化能力,支持任意模型的提示与优化,并与火山引擎知识库深度融合,能精准调用专业数据库,帮助模型在垂直领域实现更准确、更可靠的理解和输出。
    多年来,火山引擎在算子、框架和调度层面,也开展了很多深度优化工作。
    全栈式大模型训练加速引擎veOmni覆盖了LLM、VLM等多类模型,在测试中比诸多开源框架训练效率提高50%左右;基于全系自研bit推理框架veFuser,推理效率是行业平均水平的4倍左右。
    资讯配图
    火山引擎的veTurbo解决方案,从模型训练、推理部署到强化学习的全生命周期,帮助客户实现AI应用的高效开发。

    08.
    HiAgent:让数字员工“持证上岗”,
    混合开发、边干边学


    火山引擎副总裁张鑫先分享了企业员工忙碌的一天会有哪些场景,比如看待办事项、开各种会、做会议纪要、分配任务和掌握进展、审核一堆低级错误浪费时间、安排出差事项、写报告、写日报和明日工作计划等。
    这暴露了企业效率的3个瓶颈:大量工时被规则性任务消耗,系统来回切换导致上下文中断,以及信息误导。这些挑战制约了决策的效率。
    HiAgent作为一个一站式智能体工作台,希望帮助企业源源不断地派遣数字员工,来拓展人类服务边界和认知边界,从而解决上述问题。
    张鑫总结了生产级智能体数字员工的6个要素:量体裁衣,能调用企业内部系统,支持低代码与高代码混合开发,对智能体全生命周期管理,通过数据支撑与反馈来帮助数字员工边干边学变聪明,通过统一入口连接所有数字员工和企业系统。
    资讯配图
    企业的战斗力,不在于单点聪明与否,而是看系统性是否能打。
    低代码开发在第一阶段能帮助1-2人小团队,通过提示词、可视化拖拉拽,完成一个智能体雏形的搭建与上线。但当这些智能体逐渐走向生产的深水区,弊端和局限性逐渐暴露出来,比如很难做深度复杂算子的定制、复杂交互界面及意图识别的开发,也很难支持多人协同编辑,更不用说如何深入架构层面去保证整个系统的性能调优和高可用设计。
    因为这些弊端,部分团队开始步入第三阶段,又回归高代码开发,通过SDK和IDE插件结合高代码开发平台,直接进行模型调用、算法撰写、整体架构设计,这又拉高了智能体开发的技术门槛,让真正懂业务的人员无法直接参与。
    资讯配图
    HiAgent给出的解决方案,就是混合开发。
    一方面,让专业技术人员可以通过全代码的方式,设计高可用、高性能的整体架构和定制化算子;另一方面,业务人员可在探索阶段和后面的运营阶段,继续通过低代码的方式去迭代提示词、公祖留、知识库等,并将这些能力通过组件嵌入到高代码的抽象中。
    通过这种混合开发模式,业务人员可以继续进行快速的想法验证,并可以为数字员工打开自动迭代的按钮,技术人员可以通过高代码去解决复杂的逻辑和深度的性能优化。
    资讯配图
    解决了开发问题,下一步就是养成。
    就像人类员工一样,智能体作为数字员工的上岗过程,也覆盖从招聘、试用期培训到考核、晋升的流程。
    HiAgent推出了Agent Devops,实现数字员工全生命周期管理,覆盖策略规划、能力开发、效果评测、品质优化、线上观测、应用发布等环节。
    资讯配图
    HiAgent还发布了数据流转模块,把数字员工产生的数据自动记录到一个学习库中,再通过数据清洗分析和回流沉淀成后续的评测集和模型的训练集,变成数字员工的宝贵经验。
    资讯配图
    通过Agent Devops和数据流转模块,越来越多的数字员工可以从实习生转正,开始持证上岗了。这时数字员工好不好用,入口是关键。
    HiAgent发布人机协同工作台,打造真人与数字员工的“统一交互入口”,让用户找数字员工比找真人同事还方便。
    资讯配图
    HiAgent数字员工交互入口根据不同员工/智能角色的需求,提供千人千面、可自定义的工作画布形态,在一个画布中就能连接所有业务系统完成日常工作,并通过更灵活的多人协作人机协作模式,提升团队的生产力。
    从用户旅程视角来看,HiAgent 2.0帮助企业构建自己的AI“数字员工派遣站”流程如下:
      • 企业个性化需求:
        企业会梳理个性化需求,可从行业里预制的上百种应用样板间和MCP市场里选择适合的模版与工具;
      • 数字员工养成:
        通过业务人员和技术人员的协同迭代整合开发,完成数字员工Agent搭建;
      • 派遣上岗:
        在经过评测、调优、发布后,数字员工可以作为一个职场新人开始上岗;
      • 人机协同:
        数字员工通过人机协同工作台和真人员工在各种日常业务流程中做不同的协同;
      • 实践成长:
        再通过全链路的观测、数据支撑、数据回流,让数据员工在实践中不断成长,从一个职场新人进化成一个业务专家。
      2025年是智能体成为企业“数字同事”、“持证上岗”的元年。作为企业的AI“数字员工派遣站”,HiAgent已帮助各式智能体在千行百业里“持证上岗”,落地汽车维修、招生咨询、投研顾问、客服导购等领域。
      资讯配图

      09.
      结语:火山引擎的AI“朋友圈”愈发多元,
      加速Agent开发落地


      今日的一系列发布与升级,进一步完善了火山引擎AI生态布局。火山引擎已经为企业与开发者提供了从基础模型到开发工具的全链条支持,加速AI在各行业的落地应用。
      越来越多企业正尝试火山引擎AI原生的各种产品。
      资讯配图
      例如,金山办公结合豆包大模型1.6助力AI助手灵犀升级,打造一款原生的Office办公智能体,使其AI搜索、AI写作等功能有更好的表现,综合成本还下降了63%,目前金山办公WPS的豆包1.6使用量已突破日均100亿的客户服务。
      豆包大模型1.6 Flash拥有超低延时,适用于智能巡检、手机助手、智能硬件等对模型效果、速度和成本都要求非常高的商业产品。萤石第一时间选择接入豆包大模型1.6 Flash,实现降本增效,相比之前实用的模型,延时缩短一半,使用成本暴降92.3%。
      国内知名电商数字营销服务商蝉妈妈利用豆包·视频生成模型,打造了新一代数字视频生成平台,用于企业营销与创意内容生产,相比之前的视频生成模型,在商品的主图生成效果、真实感和视频可用性方面都带来明显提升,节省超过30%的使用成本。强妈妈每天通过豆包大模型生成的视频数量已经达到数千条,很快将突破日均万条。
      在智能电视场景,酷开整合了豆包大模型能力,用一句台词或一段剧情准确锁定心仪的影片片段,类似的能力还应用在教育健康产品中。
      在游戏场景,巨人网络将豆包大模型应用在游戏核心玩法中,依托豆包模型的角色扮演和深度思考能力,游戏中的AI角色既能与玩家对话,又具备极强的逻辑推演能力,能够制定出缜密而有趣的游戏策略,打破传统人机交互死板与套路的模式。未来巨人网络和火山引擎将进一步深度挖掘豆包大模型的潜力,围绕智能NPC的创新展开探索。
      火山引擎还在不断迭代模型能力,为企业带来能力更强、性价比更高的模型以及更加好用的服务与工具,加速让AI Agent走向生产与落地。
      资讯配图

      (本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)

      资讯配图