Amazon SageMaker HyperPod

수천 개의 AI 액셀러레이터에서 생성형 AI 모델 개발 규모 조정 및 가속화

SageMaker HyperPod란 무엇인가요?

Amazon SageMaker HyperPod는 생성형 AI 모델 빌드와 관련된 차별화되지 않은 복잡한 작업을 제거합니다. 수백 또는 수천 개의 AI 액셀러레이터로 구성된 클러스터에 걸쳐 학습, 미세 조정 또는 추론과 같은 모델 개발 작업을 빠르게 확장할 수 있습니다. SageMaker HyperPod는 모든 모델 개발 작업에 대한 중앙 집중식 거버넌스를 지원하여 다양한 작업의 우선 순위가 지정되는 방식, 컴퓨팅 리소스가 각 작업에 할당되는 방식을 완벽하게 파악하고 제어할 수 있으므로 클러스터의 GPU 및 AWS Trainium 활용도를 극대화하고 혁신을 가속화하는 데 도움이 됩니다.

SageMaker HyperPod를 사용하면 훈련 워크로드를 모든 액셀러레이터에 효율적으로 분배하고 병렬화할 수 있습니다. SageMaker HyperPod는 공개적으로 사용 가능한 인기 모델에 대해 최적의 훈련 구성을 자동으로 적용하여 최적의 성능을 빠르게 달성할 수 있도록 도와줍니다. 또한 클러스터에서 인프라 장애를 지속적으로 모니터링하여 자동으로 문제를 해결하고 사람의 개입 없이 워크로드를 복구하므로 훈련 시간을 최대 40% 절약할 수 있습니다.

SageMaker HyperPod의 이점

SageMaker HyperPod 작업 거버넌스 혁신은 훈련 및 추론과 같은 생성형 AI 모델 개발 작업 전반의 컴퓨팅 리소스 할당에 대한 완전한 가시성과 제어 기능을 제공합니다. SageMaker HyperPod는 작업 대기열을 자동으로 관리하여 가장 중요한 작업의 우선 순위를 지정하고 예산에 맞춰 완료하는 동시에 컴퓨팅 리소스를 더욱 효율적으로 사용하여 모델 개발 비용을 최대 40% 절감합니다.
SageMaker HyperPod 레시피를 사용하면 기술 분야와 관계없이 데이터 과학자와 개발자가 몇 분 만에 공개적으로 사용 가능한 생성형 AI 모델을 훈련하고 미세 조정할 수 있는 동시에 최첨단 성능의 이점을 누릴 수 있습니다. 또한 SageMaker HyperPod는 모델 성능을 향상시키는 데 도움이 되는 내장된 실험 및 관찰성을 제공합니다.
SageMaker HyperPod를 사용하면 AWS 클러스터 인스턴스에 걸쳐 모델 및 훈련 데이터세트를 자동으로 분할하여 훈련 워크로드를 효율적으로 확장할 수 있습니다. 따라서 AWS 네트워크 인프라 및 클러스터 토폴로지에 대한 훈련 작업을 최적화할 수 있습니다. 또한 체크포인트 저장 빈도를 최적화하여 레시피를 통해 모델 체크포인팅을 간소화하고 훈련 중 오버헤드를 최소화합니다.
SageMaker HyperPod는 인프라 결함을 자동으로 탐지, 진단 및 복구하여 복원력이 뛰어난 모델 개발 환경을 제공하므로 모델 개발 워크로드를 몇 개월 동안 중단 없이 지속적으로 실행할 수 있습니다.

SageMaker HyperPod의 작업 거버넌스 소개

활용도를 극대화하고 컴퓨팅 리소스에 대한 완전한 가시성을 확보하는 동시에 비용을 절감할 수 있습니다.

자세히 알아보기