前不久,字节跳动旗下豆包AI播客功能全量上线的消息引发行业震动。

有用户上传8万字的英文PDF文档,系统能在数秒内生成男女对谈的播客节目,语气词、停顿节奏与真人对话无异。

几乎同一时间,早在20244就推出声音复刻功能的科大讯飞,则宣布声音复刻技术升级,仅需不到10秒的音频素材,就能让《长安的荔枝》中“李善德”的声音复刻品在情绪表达上与原角色难分伯仲。

而在稍早的2024年底,MiniMax的海螺AI已凭借30秒语音素材克隆出唐国强、林黛玉等人物的声音,情感还原度让中文语音克隆实现从“能用”到“好用”的跨越。

这些技术突破背后,是科技巨头对音频内容赛道的战略押注。其核心逻辑在于:通过声音复刻、智能生成等技术,重构音频内容的生产、分发与消费链条,试图在这片被称为“耳朵经济”的蓝海中开辟新航道。

AI不仅能复刻声音,更能模拟对话逻辑、生成结构化内容时,这场声音革命又将如何重塑内容产业与商业版图?

01 声音复刻+播客的技术竞速

从豆包到讯飞,再到海螺AI

这是一场从文档到对话的工业化生产转变。

617日,豆包电脑版和网页版全量上线AI播客功能。当用户上传PDF或网页链接后,系统会自动解析内容并生成男女双人对谈的播客节目。

图/豆包网页版“AI播客”入口,用户截图

据科技媒体“智东西”报道中的实测显示,8万词的英文起诉书经豆包处理后,能在1-2分钟内转化为带封面图的完整播客,过程中系统会自动添加语气词、附和与停顿,模拟真人对话的口语习惯。

豆包AI播客的优势在于深度融合字节跳动的内容生态与技术优势。它不仅能将晦涩文本转化为通俗口语,还能通过对话形式增强内容吸引力。然而,目前也存在信息密度低、句式重复等问题,长时间收听易产生单调感。

把目光转向另一位迭代者,作为“AI语音之王,科大讯飞在声音复刻领域的技术迭代颇具颠覆性。

其新一代声音复刻技术构建了三阶段层次化语音建模框架,通过星火底座大模型精确捕捉发音规律,解耦并重构声学特征,最终恢复高保真波形。这使得讯飞仅需用户朗读一句话,就能快速生成自定义声音,并实现自然对话,达到“超拟人”效果。

图/讯飞星火APP“声塔”界面,用户截图

讯飞的技术突破在于对声音细节的高度还原,包括停顿、重音习惯以及口癖等。值得一提的是,超拟人合成技术在智能座舱、教育等场景已实现广泛应用,如蔚来汽车搭载讯飞超拟人合成技术后,智能助手NOMI的情感表达与交互自然度大幅提升,为用户提供更贴心的车载体验。

实际上,这场声音复刻的角逐在更早之前就已经开始。

把时间线往前推,2024年底,MiniMax海螺AI就率先在海外版上线Audio模块,以卓越的中文语音克隆能力引发关注。

仅需30秒音频素材,海螺AI就能精准复刻声音,并支持多种情绪切换。无论是唐国强朗诵《满江红》的激昂悲壮,还是林黛玉式的娇柔哀怨,它都能高度还原。

横向对比,海螺AI的优势在于对中文语音情绪与音色的精细把控

比如,在林黛玉声音克隆案例中,海螺AI不仅还原了其纤细声线,更精准捕捉到语气中的哀怨感,相比部分海外声音复刻产品的“大佐味”中文,海螺AI的情感表达更贴合中文语境。目前该功能仍处于免费Beta阶段,其技术表现已吸引大量内容创作者关注。

除上述三家外,AI语音赛道的技术竞争已呈现多元化态势。

例如微软AzureAISpeech推出的“神经语音”技术,通过深度神经网络生成更自然的语音;谷歌的WaveNet则以波形级生成提升语音真实感。

但在中文场景下,豆包、讯飞、MiniMax已形成技术梯队——字节依托内容生态优势,在播客生成的语义理解上领先,通过自动化播客生成降低创作门槛;讯飞凭借语音技术积累,在专业场景的声音复刻精度占优,深度研发的同时拓展多场景应用;MiniMax则以轻量化克隆和情感表达突围,突出情绪表达能力。

三者在技术路径、应用场景与商业模式上各有侧重,共同推动声音复刻技术从专业领域走向大众市场。

02 AI让播客“平民化”

当技术让声音生产门槛骤降,大公司们加速涌向AI播客赛道。

据商业数据平台Statista预测,2024年中文播客听众将达1.34亿,即每100名网民中约有12人收听播客。《2024年播客行业报告》也指出,有76.2%的播客用户每天收听时长超半小时。

不过话说回来,AI播客是一门值得期待的生意吗?

先说商业模式。

目前,播客的主要变现模式包括广告、付费订阅与IP衍生开发。头部播客节目通过广告合作可获得较为可观的收入。

据“Tech星球”报道,《搞钱女孩》单期广告报价已达2-15万元;付费订阅方面,杨天真推出的标价198元的付费节目高情商公式,小宇宙页面显示已超1万人购买,粗略估算销售额高达200多万;梁文道的《八分半》定价299元,已有超3万人购买,算下来销售额近1000万。

IP衍生开发正在成为播客变现新趋势。例如,部分头部播客推出周边商品、组织线下活动,甚至拓展至MCN业务,为主播与品牌合作提供全方位服务。喜马拉雅等平台也通过播放激励政策与广告分成机制,鼓励创作者产出优质内容。

传统播客制作需经历写稿、录音、剪辑等复杂流程,耗时费力。而如今借助AI技术,创作者可快速生成高质量音频内容,将更多精力投入内容策划与创意构思。

以知识付费领域为例,创作者可利用声音复刻快速产出系列课程音频,满足用户碎片化学习需求;在有声读物市场,技术助力经典文学作品的音频化呈现,拓展内容传播渠道;甚至在广告营销场景,品牌方可定制专属声音形象,提升广告吸引力与互动性。

需要面对的事实是,尽管市场潜力巨大,AI播客仍面临诸多挑战。

一方面,播客广告市场规模有限,2024年中国播客广告市场收入仅约33亿人民币,远低于其他内容形式;另一方面,行业竞争日益激烈,头部主播资源争夺激烈,尾部创作者变现困难,平台间也面临内容同质化与用户分流问题。

AI技术的加持让播客制作的难度降低,势必涌入更多内容竞争者。如何摸索到更有效的变现方式,则是创作者需要直面的问题。

从商业角度看,AI播客将逐渐构建起成熟的内容生态与商业闭环。平台、创作者与用户之间的互动将更加紧密,形成良性循环。

未来,AI播客不仅是一种内容形式,更将成为连接知识、文化与商业的重要桥梁,为声音经济注入源源不断的活力。在这场声音革命中,大公司的入局既是对技术趋势的敏锐把握,也是对内容消费市场深刻洞察的体现。