在 AWS 上使用 H

加速 AWS 上的数字病理幻灯片注释工作流程

作者: Pierre de Malliard 和 Christopher Cala 发表于 2025年1月31日,发布于 ,[Amazon ElasticFile System (EFS)](https://aws.amazon.com/blogs/machine- learning/category/storage/amazon-elastic-file-system-efs/),,[Amazon Simple StorageService (S3)](https://aws.amazon.com/blogs/machine- learning/category/storage/amazon-simple-storage-services-s3/),,,,,[AWS 身份与访问管理 (IAM)](https://aws.amazon.com/blogs/machine- learning/category/security-identity-compliance/aws-identity-and-access- management-iam/),,,
|

关键要点

  • 数字病理的必要性 :对癌症的诊断和治疗至关重要。
  • AI 的引入 :通过对数字化病理幻灯片的处理提升诊断精度。
  • H-optimus-0 的发布 :法国初创公司 Bioptimus 推出的新型病理视觉基础模型,参数达到 11 亿。
  • 使用 AWS 的优势 :利用 AWS 的集成生态系统来优化数字病理工作流程。

数字病理在癌症的诊断和治疗中占据着关键地位,尤其是在医疗服务和制药研发中。传统病理学主要依赖病理学家的专业知识,对组织样本进行细致的检查以识别异常。然而,随着病例的复杂性和数量的增加,迫切需要先进的工具来帮助病理学家更快速、准确地做出诊断。

病理幻灯片的数字化,称为全幻灯片图像(WSI),催生了计算病理学的新领域。研究人员通过将人工智能应用于这些数字化的 WSI,努力。计算病理学领域的一项关键进展是大型深度神经网络架构的出现,称为基础模型(FM)。这些模型利用自监督学习算法在广泛的数据集上进行训练,使其能够捕捉病理图像中固有的全面视觉表现和模式。基础模型的强大之处在于能够学习可靠且可泛化的数据嵌入,这可以有效地迁移并微调以适应各种下游任务,从自动疾病检测、组织特征化到定量生物标志物分析和病理亚型分析等。

最近,法国初创公司 宣布发布了新的病理视觉基础模型 H-optimus-0,这是全球最大公开可用的病理基础模型。H-optimus-0 拥有 11 亿个参数,训练数据源自于 50万个组织病理幻灯片中提取的数亿张图像。该模型在关键医疗诊断任务中的表现设立了新的基准,从识别癌细胞到检测肿瘤中的遗传异常。

H-optimus-0 最近被添加到 ,标志着将先进的人工智能能力普及到医疗组织中的重要里程碑。这个强大的基础模型,因其在 50万个组织病理幻灯片上的全面训练,成为希望提升数字病理工作流的组织的宝贵工具。

在本篇文章中,我们将展示如何使用 H-optimus-0进行两项常见的数字病理任务:用于详细组织检查的补丁级分析和用于更广泛诊断评估的幻灯片级分析。通过实践示例,我们将展示如何将此基础模型适配到这些特定用例,同时优化计算资源。

解决方案概述

我们的解决方案利用 AWS 的集成生态系统创建一个高效的可扩展数字病理 AI 工作流管道。架构结合了以下服务:

服务功能
(Amazon EFS)可扩展的高吞吐量病理幻灯片数据管理
(Amazon ECR)管理自定义训练容器
(Amazon S3)安全的模型工件存储
端到端机器学习 (ML) 操作和高效的计算资源配置

以下图示显示了使用 H-optimus-0 训练和部署微调基础模型的解决方案架构。

删除)

本篇文章提供了以下示例脚本和训练笔记本,请参考 。

前置条件

我们假定您可以访问并已经认证 AWS 账户。该解决方案的 模板使用 t3.medium 实例来托管 SageMaker 笔记本。特征提取使用由 NVIDIA T4 GPU 提供支持的 g5.2xlarge 实例类型,并在 us-west-2 AWS 区域进行测试。训练作业在 p3.2xlarge 和 g5.2xlarge 实例上运行。请检查您的 AWS服务配额,以确保您有足够的访问权限。

创建 AWS 基础设施

要开始数字病理 AI 工作流,我们利用 AWS CloudFormation 自动设置核心基础设施。提供的 模板创建了一个完整的环境,以便进行模型微调和训练。

我们的 CloudFormation 堆栈配置了一个安全的网络环境,使用 (AmazonVPC),建立公共和私有子网以及适当的网关以实现互联网连接。在该网络内,它创建了一个 EFS文件系统,以高效存储和服务大型病理幻灯片图像。该堆栈还配置了一个 实例,自动连接到 EFS存储,提供无缝访问训练数据。

模板处理了所有必要的安全配置,包括 (IAM) 角色。在部署堆栈时,请注意私有子网和安全组标识符;您需要确保您的训练作业可以访问 EFS 数据存储。

有关详细安装说明和配置选项,请参考我们 中的 README 文件。

使用基础模型进行补丁级预测任务

补丁级分析是数字病理 AI 工作流的基本环节。与处理可能超过几个 GB 的完整 WSI相比,补丁级分析专注于特定的组织区域。这种针对性的方式能够有效利用资源并缩短模型开发周期。以下图示展示了在 WSI 上进行补丁级预测任务的工作流程。

删除)

分类任务:MHIST 数据集

我们借助 MHIST 数据集示范补丁级分类,该数据集包含结肠息肉图像。早期检测潜在癌症息肉直接影响患者的生存率,使这一用例在临床上具有重要意义。通过在 H-optimus-0 的预训练特征上添加简单的分类头并使用线性探测,我们取得了 83% 的准确率。该实现使用 Amazon EFS 来高效流数据,并在 p3.2xlarge 实例上实现最佳 GPU 利用。

要访问 MHIST 数据集,您需通过其门户提交数据请求,以获取 annotations.csv 文件和 images.zip 文件。我们的库中包含一个 download_mhist.sh 脚本,能自动下载并将数据组织到您的 EFS 存储中。

分割任务:Lizard 数据集

在我们的第二个补丁级任务中,我们使用 Lizard 数据集演示核分割,该任务要求对结肠组织中的核边界进行精确的逐像素预测。我们通过添加 Mask2Former ViT 适配器头,将 H-optimus-0 调整为进行分割,从而利用该模型强大的特征提取能力生成详细的分割掩模。

Lizard 数据集可通过 访问,我们的库中包括脚本,用于自动下载和准备训练数据。分割实现运行于 g5.16xlarge实例,以处理逐像素预测的计算需求。

使用基础模型进行 WSI 级任务

分析完整 WSI 由于其巨大尺寸(常超过 50,000 x 50,000 像素)而面临独特挑战。为了解决这一问题,我们实现了多实例学习(MIL),将每个 WSI 视为一组较小的补丁。我们基于注意力方式的 MIL 方法自动学习哪些区域对于最终预测最为相关。以下图示展示了使用 MIL 进行 WSI级预测任务的工作流程。

![WSI删除)

WSI 处理管道

我们的实现通过以下方法优化 WSI 分析:

  • 智能补丁:我们使用 GPU 加速的 高效加载 WSI,并应用 Canny 边缘检测仅识别和提取包含组织的区域。
  • 特征提取:所选补丁通过 GPU 加速并行处理,特征以节省空间的 HDF5 格式存储,以支持后续分析。

微卫星不稳定性(MSI)状态预测

我们通过预测微卫星不稳定性(MSI)状态来演示我们的 WSI 管道,MSI 是一项关键的生物标志物,可指导癌症治疗中的免疫治疗决策。用于此任务的 可通过 访问,我们的

提供有关下载 WSI 和对应 的详细说明。

清理

完成后,请务必删除相关资源(Amazon EFS 存储和 SageMaker 笔记本实例),以避免意外费用。

结论

在本篇文章中,我们展示了如何使用 AWS 服务构建可扩展的数字病理 AI 工作流,利用 H-optimus-0 基础模型。通过对补丁级任务(MHIST分类和 Lizard 核分割)及 WSI 分析(MSI 状态预测)的实际例子,我们展示了如何高效处理计算病理学独特的挑战。

我们的实现突显了 AWS 服务在处理大规模病理数据方面的无缝集成。虽然我们在此次演示中使用 Amazon EFS来实现高吞吐量的训练工作流,生产部署可能会考虑使用 来长期存储医疗影像数据。

我们希望该管道能为您自己的病理 AI 计划提供起点。提供的 包含必要的组件,以帮助您开始构建和扩展适合您特定用例的病理工作流。您可以克隆该库并使用提供的 CloudFormation 模板设置基础设施。然后试着在您自己的病理数据集和下游任务上微调 H-optimus-0,并将结果与当前的方法进行比较。

我们期待听到您的经验和见解,欢迎您与我们联系或贡献到公开可用的基础模型中,以促进计算病理学的发展。


关于作者

![Pierre de删除)Pierrede Malliard 是亚马逊网络服务的高级 AI/ML 解决方案架构师,为医疗和生命科学行业的客户提供支持。在业余时间,Pierre喜欢滑雪和探索纽约的美食。

![Christopher删除)Christopher 是亚马逊网络服务的高级合作伙伴账户经理,帮助独立软件供应商 (ISV) 创新、构建和共同销售基于云的医疗软件即服务 (SaaS) 解决方案。作为医疗和生命科学技术领域社区 (TFC) 的一部分,Christopher 致力于加速医疗数据的数字化和利用,以推动改善结果和个性化护理服务。

加载评论...

Leave a Reply

Required fields are marked *