开放基础模型(FMs)已经成为 创新的基石,帮助组织构建和定制 AI 应用,同时控制成本和部署策略。通过提供高质量、公开可用的模型,AI社区促进了快速迭代、知识共享以及对开发者和最终用户都有益的成本效益解决方案。专注于 AI 技术发展的研究公司 成为了这个生态系统的重要贡献者。其
模型代表了一系列大型语言模型(LLMs),能够处理从代码生成到一般推理的各种任务,同时保持竞争力的性能和效率。
允许通过统一的无服务器 API 导入和使用自定义模型,同时与现有的 FMs 一同操作。您可以按需访问导入的自定义模型,无需管理基础设施。将自定义模型与本地 Bedrock 工具和功能(如知识库、保护机制和代理)整合,加速生成 AI 应用的开发。
在本文中,我们将探讨如何通过 Amazon Bedrock 自定义模型导入部署 DeepSeek-R1 的精简版本,使其对希望在安全可扩展的 AWS基础设施中使用尖端 AI 功能的组织更加可用。
基于 DeepSeek-R1,DeepSeek AI 创建了一系列基于 Meta 的 Llama 和 Qwen 架构的精简模型,参数范围从 1.5 亿到 70 亿。精简过程涉及训练更小且更高效的模型,以模仿更大的 DeepSeek-R1 模型的行为和推理模式,通过将其作为教师,将 6710亿参数模型的知识和能力转移到更紧凑的架构中。由此产生的精简模型,如 DeepSeek-R1-Distill-Llama-8B(基于基础模型 )和 DeepSeek-R1-Distill-Llama-70B(基于基础模型 ),在性能和资源需求之间提供了不同的折中方案。尽管精简模型与原始的 671B模型相比,在推理能力上可能有所下降,但在推理速度和计算成本上大幅提升。例如,像 8B版本这样的小型精简模型可以更快地处理请求,并消耗更少的资源,适合生产部署,而较大的精简版本如 70B模型在性能上更接近原始模型,同时依然提供显著的效率提升。
在这篇文章中,我们展示如何使用 Amazon Bedrock 自定义模型导入来部署 DeepSeek-R1精简版本。我们关注当前支持的型号:DeepSeek-R1-Distill-Llama-8B 和 DeepSeek-R1-Distill- Llama-70B,它们在性能和资源效率之间提供最佳平衡。您可以从 (Amazon S3)或 模型库导入这些模型,并通过 Amazon Bedrock在完全托管和无服务器的环境中进行部署。以下图示展示了端到端的流程。
删除)
在此工作流程中,存储在 Amazon S3 中的模型工件被导入到 Amazon Bedrock中,后者自动处理模型的部署和扩展。这种无服务器的方法消除了基础设施管理的需求,同时提供企业级的安全性和可扩展性。
您可以使用 Amazon Bedrock 控制台通过图形界面进行部署,按照本文中的说明操作,或者使用 通过 Amazon Bedrock SDK 进行编程部署。
您需要具备以下前提条件:
完成以下步骤以准备模型包:
有关更多信息,您可以参照 Hugging Face 的 或 指南。
您通常需要的文件包括:
config.json
tokenizer.json
和 tokenizer_config.json
.safetensors
格式的模型权重文件删除)
完成以下步骤以导入模型:
删除)
删除)
s3://<your-bucket>/folder-with-model-artifacts/
的完整路径提供)。导入模型可能需要几分钟,具体时间取决于所导入的模型(例如,Distill-Llama-8B 模型可能需要 5-20 分钟才能完成)。
删除)
删除)
观看此视频演示以获取逐步指南。
导入模型后,您可以通过 Amazon Bedrock Playground 或直接通过 Amazon Bedrock 调用 APIs 来测试它。要使用 Playground,请完成以下步骤:
<|begin▁of▁sentence|><|User|>根据以下财务数据: - A 公司的收入在 2023 年从 1000 万美元增长至 1500万美元 - 运营成本增加 20% - 初始运营成本为 700 万美元 计算该公司的运营利润率。请逐步推理,并将最终答案放在 \\boxed{} 中<|Assistant|>
由于我们在 Playground中使用了导入的模型,我们必须包含“beginning_of_sentence”和“user/assistant”标签,以正确格式化 DeepSeek模型的上下文;这些标签帮助模型理解对话结构,从而提供更准确的响应。如果您遵循编程方法,可以通过 自动处理这些内容。
注意 :首次调用模型时,如果遇到 ModelNotReadyException
错误,SDK会自动以指数退避方式重试请求。恢复时间因按需集群大小和模型大小而异。您可以使用 AWS SDK for Python
(Boto3) Config 对象自定义重试行为。如需更多信息,请参见
。
一旦您准备好导入模型,可以使用此逐步视频演示帮助您入门。
自定义模型导入功能使您能够在 Amazon Bedrock 中以托管的方式使用自定义模型权重,支持的架构与 Amazon Bedrock 托管的 FMs一起服务。自定义模型导入不收取模型导入费用,按推理的两个因素收费:活动模型副本的数量及其活跃时长。
计费以 5分钟为单位,从每个模型副本的首次成功调用开始。每分钟每个模型副本的定价因架构、上下文长度、区域和计算单元版本而异,并按模型副本大小分层。托管所需的自定义模型单元取决于模型的架构、参数数量和上下文长度,示例范围从 2 单元(适用于 Llama 3.1 8B 128K 模型)到 8 单元(适用于 Llama 3.1 70B 128K 模型)。
Amazon Bedrock 会自动管理扩展,根据使用模式维护默认的零至三个模型副本(可通过服务配额调整)。如果 5分钟内没有调用,它将缩减至零,并在需要时进行扩展,不过这可能涉及数十秒的冷启动延迟。如果推理量持续超过单副本并发限制,则会添加额外副本。在导入过程中,将根据输入/输出令牌组合、硬件类型、模型大小、架构和推理优化等因素确定每个副本的最大吞吐量和并发能力。
以下是价格示例:一个应用程序开发者导入了一个自定义的 Llama 3.1 类型模型,其参数大小为 8B,序列长度为 128K,所在区域为 us- east-1,并在一个月后删除该模型。这需要 2 个自定义模型单元。因此,每分钟的费用为 0.1570 美元,模型存储费用为每月 3.90 美元。
有关更多信息,请参见 。
DeepSeek 发布了 ,将其精简模型与原始 DeepSeek-R1 和基础 Llama模型进行了比较,结果可在模型库中查看。基准测试表明,DeepSeek-R1-Distill-Llama-70B 根据任务维持了原始模型 80-90% 的推理能力,而 8B 版本则在性能方面达到 59-92%,并且显著减少了资源需求。这两个精简版本在特定推理任务上都比其对应的基础 Llama 模型表现更好。
在 Amazon Bedrock 部署 DeepSeek 模型时,考虑以下因素:
Amazon Bedrock 自定义模型导入使组织能够使用像 DeepSeek-R1 精简版本等强大的公开可用模型,同时受益于企业级基础设施。AmazonBedrock 的无服务器特性消除了管理模型部署和操作的复杂性,使团队能够专注于构建应用,而非基础设施。借助自动扩展、按需定价和与 AWS服务的无缝集成,Amazon Bedrock 为 AI 工作负载提供了生产就绪的环境。DeepSeek 的创新精简方法与 Amazon Bedrock管理基础设施的结合,实现了性能、成本和操作效率的最佳平衡。组织可以从小规模模型开始,根据需要扩展,同时保持对模型部署的完全控制,并受益于 AWS的安全性和合规能力。
在 Amazon Bedrock 中选择专有和开放的 FMs,使组织能够灵活地根据自身需求进行优化。开放模型允许以更具成本效益的方式进行部署,同时完全控制模型工件,适合需要定制、成本优化或模型透明度的场景。这种灵活性,加上 Amazon Bedrock 的统一 API 和企业级基础设施,使组织能够建立能适应其不断演变要求的弹性 AI 策略。
如需更多信息,请参见 。
删除)RajPathak** 是一名首席解决方案架构师,为位于加拿大和美国的财富 50 强及中
Leave a Reply