许多 AWS 客户都使用 Kubernetes(一种开源的通用容器编排系统)来部署和管理容器化的应用程序。提供的托管服务可用于部署 Kubernetes。数据科学家和开发人员可以在 Kubernetes 集群设置可重复的 ML 流程,并拥有对训练和推理工作负载的更大控制权。但是,为支持 ML 工作负载,您仍然需要编写自定义代码,以优化底层 ML 基础设施、提供高可用性和可靠性、提供数据科学生产力工具,并遵守适用的安全和法规要求。例如,如果您是使用 GPU 进行训练和推理的 Kubernetes 客户,那么您通常需要更改 Kubernetes 计划和扩展 GPU 工作负载的方式,以提高利用率、吞吐量和可用性。同样,为了将已经过训练的模型部署到生产环境中进行推理,您必须花费额外的时间来设置和优化跨多个可用区的自动扩展集群。