资讯配图

全文约 2600 字,预计阅读时间 6 分钟

随着人工智能技术的飞速发展,电子商务领域正迎来一场前所未有的变革。消费者不再满足于简单的商品搜索,他们希望智能助手能够理解复杂需求,规划出详细的购物脚本,并为每一步推荐合适的产品。香港科技大学(HKUST)计算机科学与工程系联合亚马逊公司以及德克萨斯A&M大学,推出了一项突破性研究——ECOMSCRIPTBENCH,这是首个专为电子商务脚本规划(E-commerce Script Planning, ECOMSCRIPT)设计的大型数据集,旨在为智能购物助手赋予更强大的规划和推荐能力。这项研究不仅定义了全新的电商脚本规划任务,还通过创新的框架和实验,揭示了当前大语言模型(LLMs)在这一领域的潜力与挑战。

资讯配图
论文链接:https://aclanthology.org/2025.acl-long.1.pdf

什么是E-commerce Script Planning?

E-commerce Script Planning(ECOMSCRIPT)是一种以用户目标为导向的复杂任务,旨在为用户生成一个包含多个步骤的脚本,每个步骤可能关联推荐的产品。例如,假设用户希望“举办一场秋季主题派对”,智能助手需要生成一个包含8个步骤的脚本,从选择场地、发送邀请,到采购装饰品和准备食物,每一步都可能推荐相应的产品,如派对装饰灯、餐具或食材。这种“产品增强脚本”(product-enriched script)不仅能帮助用户高效完成目标,还能提供一站式的购物体验,减少多次搜索的麻烦。

资讯配图
图1:秋季主题派对的产品增强脚本示例。此图展示了一个为“举办秋季主题派对”生成的产品增强脚本,包含8个步骤,其中部分步骤关联了推荐产品(如装饰品和食材),而简单步骤(如发送邀请)无需产品支持。

这项任务的挑战在于:现有大语言模型在脚本规划和产品推荐的结合上表现不足。首先,模型难以从海量的电商产品池中精准检索出匹配的产品;其次,脚本中的步骤描述与产品搜索查询之间存在语义鸿沟;最后,缺乏针对此类任务的评估方法和数据集。为解决这些问题,研究团队提出了一个创新的框架,将任务分解为三个子任务:脚本验证(Script Verification)、步骤-产品匹配(Step-Product Discrimination)和脚本-产品整体验证(Script-Products Verification),并构建了ECOMSCRIPTBENCH数据集,为模型的训练和评估提供了坚实的基础。

创新点:从意图到产品的桥梁

ECOMSCRIPTBENCH的创新核心在于其基于用户购买意图(purchase intention)的产品关联策略。传统的电商产品推荐往往依赖产品标题和元数据的关键词匹配,但用户在脚本规划中描述的步骤通常是行动导向的(如“装饰派对场地”),而非产品特征导向的(如“LED灯”)。这导致了语义匹配的困难。研究团队提出了一种基于购买意图的解决方案,通过分析用户购买产品的潜在动机,将脚本步骤与产品的意图进行语义对齐。例如,对于“装饰派对场地”这一步骤,系统会挖掘与“营造节日氛围”或“提升场地美感”等意图相关的产品,从而推荐出更贴合用户需求的装饰品。

具体而言,研究团队利用了亚马逊的真实用户评论数据(Hou et al., 2024),通过GPT-4o-mini生成用户目标和脚本,并为240万个产品生成了2400万个购买意图。这种基于意图的匹配策略,不仅弥补了传统搜索的不足,还通过SentenceBERT计算步骤与意图的语义相似度,筛选出最相关的产品(最多三个),确保推荐的精准性和多样性。

此外,研究团队设计了一个四阶段的数据构建流程:首先从用户评论中提取复杂目标并生成脚本;其次挖掘每个产品的购买意图;然后通过步骤-意图对齐关联产品;最后通过亚马逊机械土耳其(AMT)进行人工标注,为15000个数据条目提供高质量的金标准标签。这一流程确保了数据集的规模和质量,为模型的评估提供了可靠的基准。

资讯配图图2:ECOMSCRIPTBENCH数据集构建与评估流程。此图展示了ECOMSCRIPTBENCH的构建流程,包括用户目标与脚本生成、购买意图挖掘、步骤-意图对齐和人工标注四个阶段,为电商脚本规划提供了全面的数据支持。

实验方法:多维度评估与模型优化

为了全面评估大语言模型在ECOMSCRIPT任务上的表现,研究团队测试了超过20种模型,包括预训练语言模型(PTLMs,如RoBERTa、DeBERTa)和大语言模型(LLMs,如Llama3、Gemma2、Mistral等),以及专有模型(如GPT-4o和GPT-4o-mini)。实验涵盖了三种评估方式:零样本(Zero-shot)、微调(Fine-tuning)和高级提示技术(如Chain-of-Thought和Self-Reflection)。每个子任务被定义为二分类问题,使用准确率(Accuracy)、AUC和Macro-F1作为评估指标。

在数据构建方面,研究团队从亚马逊的240万个产品和370万条评论中抽样10%,生成了605,229个脚本,包含592万个步骤,其中约300万个步骤需要产品支持。每个产品关联了10个购买意图,总计2400万个意图。为了确保数据质量,研究团队通过AMT对5000个数据条目进行了人工标注,采用五人多数投票机制,并由三位电商NLP专家验证,标注一致性达到78%,Fleiss Kappa值为0.53,显示出较高的可靠性。

实验结果:挑战与突破

实验结果显示,当前大语言模型在ECOMSCRIPT任务上仍面临显著挑战。最佳开源模型Llama-3.1-405B在脚本验证、步骤-产品匹配和脚本-产品整体验证三个子任务上的准确率分别为75%、68%和65%,表明任务的复杂性。特别是涉及产品推荐的两个子任务表现较差,凸显了模型在电商产品知识整合上的不足。

然而,研究团队通过微调和注入购买意图知识显著提升了模型性能。例如,Llama-3.1-8B在微调后,三个子任务的准确率分别提升了12%、11%和13%。更重要的是,通过在FolkScope和MIND数据集上预训练购买意图知识,再在ECOMSCRIPTBENCH上微调,Mistral-v0.3-7B模型在步骤-产品匹配任务上的准确率达到81.18%,在脚本-产品整体验证任务上达到78.94%,展现了意图知识的巨大潜力。这种基于意图的知识注入为模型提供了更深层次的产品使用场景理解,显著改善了产品推荐的准确性。

此外,研究团队对GPT-4o的错误进行了细致分析,发现68%的错误源于对产品功能或用途的错误理解,27%源于跨步骤产品协作的推理失败。这提示未来可以通过引入多模态数据(如产品图片)或更详细的产品属性来进一步优化模型表现。

资讯配图图3:ECOMSCRIPTBENCH中每步关联产品数量的分布。此图显示随着脚本步骤增加,关联产品的需求逐渐增多,反映了电商脚本规划在实际场景中的重要性。

按类别性能分析:清晰与模糊的界限

研究进一步分析了GPT-4o在不同产品类别上的表现,结果显示模型在“玩具与游戏”“户外园艺”“食品与美食”“手机与配件”等类别上的准确率超过80%。这些类别的产品描述通常较为清晰,易于区分。而“美容与个人护理”“健康与家居”等类别由于产品描述的重叠性较高,模型准确率仅为63.95%和66.15%。这表明在语义模糊或产品差异细微的场景下,单一的文本信息难以支撑精准的产品区分,未来可通过引入图像或结构化元数据来提升性能。

局限性与未来展望

尽管ECOMSCRIPTBENCH为电商脚本规划提供了开创性的数据集和框架,但研究也存在一些局限性。首先,数据构建依赖专有模型GPT-4o-mini,成本虽低(生成2400万个意图仅花费250美元),但可能限制开源社区的复现。其次,产品兼容性验证依赖人工标注,增加了数据构建的复杂性。未来,可以探索更自动化的验证方法,或通过多模态信息(如产品图像)进一步提升模型的理解能力。此外,扩展数据集规模和覆盖更多产品类别,将有助于提升框架的普适性。

总结:智能电商的未来基石

通过定义全新的ECOMSCRIPT任务、提出基于购买意图的产品关联框架,以及构建包含605,229个脚本和2400万个意图的大型数据集,香港科技大学与亚马逊的研究团队为智能购物助手的开发提供了坚实的基础。实验结果不仅揭示了当前大语言模型的局限性,还通过意图注入和微调展示了性能提升的潜力。这项工作为电商行业带来了更智能、个性化的购物体验,同时也为学术界和工业界提供了宝贵的资源,助力未来智能电商的进一步发展。

本文由 Intern-S1、Qwen3 等 AI 生成,人工完成校验

议程地址:https://2025.aclweb.org/program/

Intern-S1 体验地址:https://chat.intern-ai.org.cn

-- 完 --


资讯配图


机智流推荐阅读

1. Trae SOLO打造ACL 25专区, 书生Qwen3等生成3000+论文解读,SOLO模式太爽了!!!!

2. Trae Solo Code即将大放量,聊聊Kiro Spec和Trae Solo的区别,分别适合什么人使用

3. AWS AI IDE「Kiro」深度体验:免费解锁最强编程模型

4. 聊聊大模型推理系统之 MIRAGE:当KV Cache不够时,把模型参数“变”成缓存



关注机智流并加入 AI 技术交流群,不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流,同时还有
HuggingFace每日精选论文顶会论文解读Talk分享通俗易懂的Agent知识与项目前沿AI科技资讯大模型实战教学活动等。
在「机智流」公众号后台回复下方标红内容即可加入对应群聊:
  • cc | 大模型技术交流群
  • hf | HuggingFace 高赞论文分享群
  • 具身 | 具身智能交流群
  • 硬件 | AI 硬件交流群
  • 智能体 | Agent 技术交流群