在 AWS 机器学习博客上，使用 Amazon Bedrock 自定义模型导入部署 DeepSeek

2025/09/06

使用 Amazon Bedrock 自定义模型导入 DeepSeek-R1 精简版 Llama 模型

关键要点

开放基础模型（FMs）是生成 AI 创新的核心，促进了企业在成本和部署策略上的自由。
DeepSeek AI 提供的 DeepSeek-R1 模型系列适用于多种任务，兼具效率和性能。
Amazon Bedrock 自定义模型导入功能使用户能够便捷地部署和扩展自定义模型。
本文将详细介绍如何使用 Amazon Bedrock 部署 DeepSeek-R1 的精简版本。

开放基础模型（FMs）已经成为创新的基石，帮助组织构建和定制 AI 应用，同时控制成本和部署策略。通过提供高质量、公开可用的模型，AI社区促进了快速迭代、知识共享以及对开发者和最终用户都有益的成本效益解决方案。专注于 AI 技术发展的研究公司成为了这个生态系统的重要贡献者。其

模型代表了一系列大型语言模型（LLMs），能够处理从代码生成到一般推理的各种任务，同时保持竞争力的性能和效率。

允许通过统一的无服务器 API 导入和使用自定义模型，同时与现有的 FMs 一同操作。您可以按需访问导入的自定义模型，无需管理基础设施。将自定义模型与本地 Bedrock 工具和功能（如知识库、保护机制和代理）整合，加速生成 AI 应用的开发。

在本文中，我们将探讨如何通过 Amazon Bedrock 自定义模型导入部署 DeepSeek-R1 的精简版本，使其对希望在安全可扩展的 AWS基础设施中使用尖端 AI 功能的组织更加可用。

DeepSeek-R1 精简版本

基于 DeepSeek-R1，DeepSeek AI 创建了一系列基于 Meta 的 Llama 和 Qwen 架构的精简模型，参数范围从 1.5 亿到 70 亿。精简过程涉及训练更小且更高效的模型，以模仿更大的 DeepSeek-R1 模型的行为和推理模式，通过将其作为教师，将 6710亿参数模型的知识和能力转移到更紧凑的架构中。由此产生的精简模型，如 DeepSeek-R1-Distill-Llama-8B（基于基础模型）和 DeepSeek-R1-Distill-Llama-70B（基于基础模型），在性能和资源需求之间提供了不同的折中方案。尽管精简模型与原始的 671B模型相比，在推理能力上可能有所下降，但在推理速度和计算成本上大幅提升。例如，像 8B版本这样的小型精简模型可以更快地处理请求，并消耗更少的资源，适合生产部署，而较大的精简版本如 70B模型在性能上更接近原始模型，同时依然提供显著的效率提升。

解决方案概述

在这篇文章中，我们展示如何使用 Amazon Bedrock 自定义模型导入来部署 DeepSeek-R1精简版本。我们关注当前支持的型号：DeepSeek-R1-Distill-Llama-8B 和 DeepSeek-R1-Distill- Llama-70B，它们在性能和资源效率之间提供最佳平衡。您可以从（Amazon S3）或模型库导入这些模型，并通过 Amazon Bedrock在完全托管和无服务器的环境中进行部署。以下图示展示了端到端的流程。

删除)

在此工作流程中，存储在 Amazon S3 中的模型工件被导入到 Amazon Bedrock中，后者自动处理模型的部署和扩展。这种无服务器的方法消除了基础设施管理的需求，同时提供企业级的安全性和可扩展性。

您可以使用 Amazon Bedrock 控制台通过图形界面进行部署，按照本文中的说明操作，或者使用通过 Amazon Bedrock SDK 进行编程部署。

前提条件

您需要具备以下前提条件：

拥有一个可以访问 Amazon Bedrock 的 AWS 账户。
拥有适当的（IAM）角色和权限，适用于 Amazon Bedrock 和 Amazon S3。有关更多信息，请参见。
准备一个 S3 存储桶用于存储自定义模型。有关更多信息，请参见。
本地存储空间充足，8B 模型至少需要 17 GB，70B 模型则需要 135 GB。

准备模型包

完成以下步骤以准备模型包：

从 Hugging Face 下载 DeepSeek-R1-Distill-Llama 模型工件，根据您要部署的模型选择以下链接之一：
https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-8B/tree/main
https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-70B/tree/main

有关更多信息，您可以参照 Hugging Face 的或指南。

您通常需要的文件包括：

模型配置文件：config.json
令牌化文件：tokenizer.json 和 tokenizer_config.json
.safetensors 格式的模型权重文件
将这些文件上传到您 S3 存储桶中的某个文件夹，确保与您打算使用 Amazon Bedrock 的 AWS 区域相同。请记下您使用的 S3 路径。

删除)

导入模型

完成以下步骤以导入模型：

删除)

对于 模型名称 ，输入您的模型名称（建议使用版本控制方案以跟踪导入的模型）。
对于 导入作业名称 ，输入您的导入作业名称。
对于 模型导入设置 ，选择 Amazon S3 存储桶 作为导入源，并输入您之前记录的 S3 路径（以 s3://<your-bucket>/folder-with-model-artifacts/ 的完整路径提供）。
对于加密，可选择自定义加密设置。
对于 服务访问角色 ，选择创建新 IAM 角色或提供现有角色。
选择 导入模型 。

导入模型可能需要几分钟，具体时间取决于所导入的模型（例如，Distill-Llama-8B 模型可能需要 5-20 分钟才能完成）。

删除)

观看此视频演示以获取逐步指南。

测试导入的模型

导入模型后，您可以通过 Amazon Bedrock Playground 或直接通过 Amazon Bedrock 调用 APIs 来测试它。要使用 Playground，请完成以下步骤：

在 Amazon Bedrock 控制台中，选择导航面板中的 聊天/文本 下的 Playgrounds 。
从模型选择器中选择您导入的模型名称。
根据需要调整推理参数并编写测试提示。例如：
<｜begin▁of▁sentence｜><｜User｜>根据以下财务数据： - A 公司的收入在 2023 年从 1000 万美元增长至 1500万美元 - 运营成本增加 20% - 初始运营成本为 700 万美元计算该公司的运营利润率。请逐步推理，并将最终答案放在 \\boxed{} 中<｜Assistant｜>

由于我们在 Playground中使用了导入的模型，我们必须包含“beginning_of_sentence”和“user/assistant”标签，以正确格式化 DeepSeek模型的上下文；这些标签帮助模型理解对话结构，从而提供更准确的响应。如果您遵循编程方法，可以通过自动处理这些内容。

查看模型的响应和提供的指标。
删除)

注意：首次调用模型时，如果遇到 ModelNotReadyException 错误，SDK会自动以指数退避方式重试请求。恢复时间因按需集群大小和模型大小而异。您可以使用 AWS SDK for Python (Boto3) Config 对象自定义重试行为。如需更多信息，请参见。

一旦您准备好导入模型，可以使用此逐步视频演示帮助您入门。

定价

自定义模型导入功能使您能够在 Amazon Bedrock 中以托管的方式使用自定义模型权重，支持的架构与 Amazon Bedrock 托管的 FMs一起服务。自定义模型导入不收取模型导入费用，按推理的两个因素收费：活动模型副本的数量及其活跃时长。

计费以 5分钟为单位，从每个模型副本的首次成功调用开始。每分钟每个模型副本的定价因架构、上下文长度、区域和计算单元版本而异，并按模型副本大小分层。托管所需的自定义模型单元取决于模型的架构、参数数量和上下文长度，示例范围从 2 单元（适用于 Llama 3.1 8B 128K 模型）到 8 单元（适用于 Llama 3.1 70B 128K 模型）。

Amazon Bedrock 会自动管理扩展，根据使用模式维护默认的零至三个模型副本（可通过服务配额调整）。如果 5分钟内没有调用，它将缩减至零，并在需要时进行扩展，不过这可能涉及数十秒的冷启动延迟。如果推理量持续超过单副本并发限制，则会添加额外副本。在导入过程中，将根据输入/输出令牌组合、硬件类型、模型大小、架构和推理优化等因素确定每个副本的最大吞吐量和并发能力。

以下是价格示例：一个应用程序开发者导入了一个自定义的 Llama 3.1 类型模型，其参数大小为 8B，序列长度为 128K，所在区域为 us- east-1，并在一个月后删除该模型。这需要 2 个自定义模型单元。因此，每分钟的费用为 0.1570 美元，模型存储费用为每月 3.90 美元。

有关更多信息，请参见。

性能基准

DeepSeek 发布了，将其精简模型与原始 DeepSeek-R1 和基础 Llama模型进行了比较，结果可在模型库中查看。基准测试表明，DeepSeek-R1-Distill-Llama-70B 根据任务维持了原始模型 80-90% 的推理能力，而 8B 版本则在性能方面达到 59-92%，并且显著减少了资源需求。这两个精简版本在特定推理任务上都比其对应的基础 Llama 模型表现更好。

其他考虑因素

在 Amazon Bedrock 部署 DeepSeek 模型时，考虑以下因素：

模型版本控制是必不可少的。由于自定义模型导入为每次导入创建唯一模型，因此在模型名称中实施明确的版本控制策略，以跟踪不同版本和变化。
当前支持的模型格式专注于基于 Llama 的架构。虽然 DeepSeek-R1 精简版本提供了优良的性能，但 AI 生态系统仍在快速演变。请关注 Amazon Bedrock 模型目录，以便新架构和更大模型通过平台可用。
仔细评估您的用例要求。虽然像 DeepSeek-R1-Distill-Llama-70B 这样较大的模型提供更好的性能，但 8B 版本可能以更低的成本满足许多应用的需求。
考虑实施监控和可观察性。提供导入模型的指标，帮助您跟踪使用模式和性能。您可以使用来监控费用。
从较低的并发配额开始，根据实际使用模式逐步扩展。每个账户默认限制为三个并发模型副本，适合大多数初始部署。

结论

Amazon Bedrock 自定义模型导入使组织能够使用像 DeepSeek-R1 精简版本等强大的公开可用模型，同时受益于企业级基础设施。AmazonBedrock 的无服务器特性消除了管理模型部署和操作的复杂性，使团队能够专注于构建应用，而非基础设施。借助自动扩展、按需定价和与 AWS服务的无缝集成，Amazon Bedrock 为 AI 工作负载提供了生产就绪的环境。DeepSeek 的创新精简方法与 Amazon Bedrock管理基础设施的结合，实现了性能、成本和操作效率的最佳平衡。组织可以从小规模模型开始，根据需要扩展，同时保持对模型部署的完全控制，并受益于 AWS的安全性和合规能力。

在 Amazon Bedrock 中选择专有和开放的 FMs，使组织能够灵活地根据自身需求进行优化。开放模型允许以更具成本效益的方式进行部署，同时完全控制模型工件，适合需要定制、成本优化或模型透明度的场景。这种灵活性，加上 Amazon Bedrock 的统一 API 和企业级基础设施，使组织能够建立能适应其不断演变要求的弹性 AI 策略。

如需更多信息，请参见。

作者介绍

删除)RajPathak** 是一名首席解决方案架构师，为位于加拿大和美国的财富 50 强及中