作者:Jordan Knight、Sara Reynolds、George Lee、Francisco Calderon Rodriguez 和 IsaacPrivitera,于2025年1月31日发布于 ,,,,,,
分享
Foundation models(FMs,基础模型)在文本生成、摘要和问答等任务中表现出色。越来越多的 FMs正在承担以往由监督学习完成的任务。虽然小型的监督模型在生产环境中表现良好并满足延迟要求,但使用类似 Amazon Bedrock 的 API 服务构建基于 FM 的分类器可以带来诸多好处,包括更快的系统开发能力、更换模型的灵活性、快速实验和迭代的能力,以及扩展到其他相关分类任务的便利。与传统分类器不同,FM驱动的解决方案还提供输出的合理性解释。此外,现代的 FMs 强大到足以满足准确性和延迟要求,从而取代监督学习模型。
在本篇文章中,我们将介绍 Generative AI Innovation Center(GenAIIC)与领先的财产与伤亡保险公司 Travelers的合作,如何通过提示工程开发基于 FM 的分类器。Travelers 每年收到数百万封来自代理人或客户的服务请求邮件。GenAIIC 和 Travelers创建的系统利用 FMs 的预测能力,将复杂且有时具有模糊性的服务请求邮件分类为多个类别。此 FM分类器推动了自动化系统,能够节省数万小时的人工处理时间,并将时间转向更复杂的任务。使用 Anthropic 的 Claude 模型与 AmazonBedrock,我们将问题表述为分类任务,并通过提示工程及与业务领域专家的合作,实现了91%的分类准确率。
主要任务是将 Travelers 接收到的邮件分类为服务请求类别。这些请求涉及地址更改、覆盖调整、工资更新或风险变更等领域。我们使用了一个预训练的 FM,将问题表述为文本分类任务。然而,与通常需要训练资源的监督学习不同,我们通过提示工程和少量示例提示来预测邮件的分类。这使我们能够在不产生训练成本的情况下使用预训练的 FM。该流程从接收邮件开始,给定邮件的文本和任何 PDF 附件后,通过模型将邮件进行分类。
需要注意的是,微调 FM 是另一种可以提高分类器性能的方法,但这需要额外成本。通过整理更长的示例列表和预期输出,FM可以针对特定任务进行更好的训练。在此案例中,由于仅使用提示工程的准确性已相当高,因此微调后的准确性必须足以证明其成本合理。虽然在参与时,Anthropic的 Claude 模型尚未在 Amazon Bedrock 上提供微调功能,但目前 Anthropic 的 Claude Haiku 微调已在 AmazonBedrock 中进行测试。
下图展示了分类邮件的解决方案流程。

该工作流程包括以下步骤:
Amazon Textract提供了多种功能,如提取附加在邮件中的表单原始文本。还进行额外的实体提取和表格数据检测,以识别姓名、保单号、日期等信息。Amazon Textract的输出与邮件文本结合后,交由模型判断合适的分类。
该解决方案是无服务器的,这为组织带来了许多好处。通过无服务器解决方案,AWS 提供了管理解决方案,降低了拥有成本并简化了维护复杂性。
真实数据集包含超过 4000 个标记的邮件示例。原始邮件为 Outlook .msg 格式和 .eml 格式。约 25% 的邮件附带 PDF附件,其中大部分为 ACORD 保险表单。这些 PDF 表单包含额外的信息,为分类器提供了信号。仅处理 PDF附件以限制范围;其他附件将被忽略。在大多数情况下,邮件正文文本包含与 13 个类别对齐的大部分预测信号。
为了构建强大的提示,我们需要充分理解类别之间的差异,以便为 FM提供足够的解释。通过手动分析邮件文本并咨询业务专家,提示中包括了一系列关于如何分类邮件的明确指令。附加指令帮助 Anthropic 的 Claude识别关键短语,帮助区分邮件类别。提示还包括少量示例,展示如何执行分类,以及输出示例,显示 FM 应如何格式化其响应。通过向 FM提供示例和其他提示技术,我们得以显著降低 FM 输出的结构和内容差异,实现可解释、可预测和可重复的结果。
提示的结构如下:
想了解更多关于 Anthropic 的 Claude 提示工程的信息,请参考 Anthropic 文档中的提示工程。
“Claude 理解复杂的保险术语和细微的政策语言,特别擅长邮件分类这类任务。它能够解读上下文和意图,即便在模糊的交流中也能很好地处理,完全符合保险操作面临的挑战。我们很高兴看到 Travelers 和 AWS 如何利用这些能力创造出如此高效的解决方案,展示了 AI 转型保险流程的潜力。” – Jonathan Pelosi, Anthropic
为了在生产中使用基于 FM 的分类器,其必须显示出高度的准确性。初步测试未使用提示工程时的准确率为 68%。在利用 Anthropic 的 Claudev2 进行各种技术改进后,例如提示工程、精简类别、调整文档处理流程和改善指令,准确率提升至 91%。Anthropic 的 Claude Instant 在 Amazon Bedrock 上的表现也相当出色,准确率为 90%,同时还识别出其他可改进之处。
在本文中,我们讨论了 FMs 如何通过提示工程可靠地自动化保险服务邮件的分类。当将问题表述为分类任务时,FM可以在生产环境中实现良好性能,同时具有扩展到其他任务的能力并能迅速启动。所有实验均在 Amazon Bedrock 上使用 Anthropic 的 Claude 模型进行。
删除)JordanKnight** 是 Travelers 商业保险分析与研究部门的高级数据科学家。他热衷于解决现实世界中的计算机视觉难题,并探索新颖的先进方法。他特别关注 ML 模型的社会影响,以及如何改善建模过程,以开发对所有人公平的 ML 解决方案。在闲暇时间,他喜欢攀岩、远足或继续磨练自己尚算粗糙的烹饪技能。
删除)SaraReynolds 是 Travelers 的产品负责人。作为企业 AI 团队的一员,她推动了利用 AI 和云计算技术转型操作流程的工作。她最近获得了 MBA 和学习技术的博士学位,并在北德克萨斯大学担任兼职教授。
删除)GeorgeLee 是 Travelers Insurance 国际业务的副总裁、数据科学及生成式 AI 负责人。他专注于开发企业 AI 解决方案,精通生成式 AI和大型语言模型。George 领导过多项成功的 AI 项目,并持有两项 AI 驱动风险评估的专利。他在伊利诺伊大学香槟分校获得计算机科学硕士学位。
 Francisco Calderon 是生成式 AI 创新中心 (GAIIC) 的数据科学家。作为 GAIIC 的一员,他帮助 AWS 客户使用生成式 AI 技术探索各种可能性。在业余时间,Francisco喜欢演奏音乐和吉他,与女儿们踢足球,以及和家人共度时光。
 Isaac Privitera 是 AWS 生成式 AI 创新中心的首席数据科学家,专注于开发定制的生成式 AI解决方案,以应对客户的商业问题。他的主要关注点在于构建负责任的 AI 系统,使用 RAG、多代理系统和模型微调等技术。在不沉浸于 AI 世界时,Isaac会出现在高尔夫球场上,享受美式足球赛,或者与他的忠犬 Barry 一起远足。
加载评论…
Leave a Reply