Operators Kubernetes Amazon 隆重推出 SageMaker for (operation)

admin 2025-01-04 次阅读

许多 AWS 客户都使用 Kubernetes（一种开源的通用容器编排系统）来部署和管理容器化的应用程序。提供的托管服务可用于部署 Kubernetes。数据科学家和开发人员可以在 Kubernetes 集群设置可重复的 ML 流程，并拥有对训练和推理工作负载的更大控制权。但是，为支持 ML 工作负载，您仍然需要编写自定义代码，以优化底层 ML 基础设施、提供高可用性和可靠性、提供数据科学生产力工具，并遵守适用的安全和法规要求。例如，如果您是使用 GPU 进行训练和推理的 Kubernetes 客户，那么您通常需要更改 Kubernetes 计划和扩展 GPU 工作负载的方式，以提高利用率、吞吐量和可用性。同样，为了将已经过训练的模型部署到生产环境中进行推理，您必须花费额外的时间来设置和优化跨多个可用区的自动扩展集群。