Kakao i Machine Learning
Kakao i Machine Learning은 AI 모델 학습부터 추론, 프로덕션 모델 배포까지 전체 프로세스를 운영 및 관리할 수 있는 플랫폼입니다.
- 고성능 컴퓨팅 자원을 활용한 반복적인 학습으로 높은 성능의 모델 개발을 지원하고, 개발된 모델을 엔드포인트에 손쉽게 배포할 수 있도록 돕습니다.
- 모델 개발 및 운영에서 발생하는 반복적인 작업은 시스템에 의해 자동화되어, 사용자는 모델 개발과 배포에만 집중할 수 있습니다.
Kakao i Machine Learning 특장점
- 고성능 컴퓨팅(HPC)이 가능한 GPU 팜을 제공하여 학습 및 작업 속도를 향상시킬 수 있습니다.
- 높은 대역폭의 인피니밴드(Infiniband) 스토리지를 이용하여 빠르게 데이터를 처리합니다.
- Trition, PyTorch, TensorFlow Serving 등 주요 ML 프레임워크를 기본으로 제공하여, 간편하게 모델을 학습하고 배포할 수 있습니다.
- 고객의 비즈니스 로직을 소스코드 또는 스크립트로 추가하여 원하는 형태로 모델을 배포할 수 있습니다.
- 자주 사용하는 개발 환경을 재사용하거나 모델 재현성 등을 위해 컨테이너 이미지를 커스텀 이미지로 등록하여 쉽게 불러올 수 있습니다.
- 컴퓨팅 인스턴스, 관리형 Jupyter 노트북, 고성능 분산학습과 추론이 가능한 인스턴스를 제공하기 때문에 서버를 관리할 필요가 없습니다.
Kakao i Machine Learning 대상 사용자
데이터 과학자, 데이터 엔지니어, ML 연구자, ML 엔지니어 등 데이터와 모델을 다루는 모든 사용자를 위한 서비스입니다.
ML 워크플로우에 해당하는 모든 작업을 포함하며 개인과 팀, 엔터프라이즈 환경에서 활용할 수 있습니다.
구분 | 설명 |
---|---|
데이터 | 데이터 수집, 탐색, 검증, 레이블링 등의 작업을 통해 학습을 위한 데이터세트를 준비하고 데이터 중심의 성능 개선을 진행 |
모델 학습 | 모델 아키텍처나 하이퍼파라미터를 변경하며, 반복적으로 모델을 학습하고 성능을 평가하는 실험을 통해 최적의 ML 모델을 만들고 관리 |
모델 배포 | 모델 배포, 테스트, 추론, 평가 등의 과정을 거쳐 최종 사용자가 ML 모델에 접근할 수 있는 프로덕션 시스템을 구축 - 모델 서빙에 필요한 인프라를 만들고 관리하며 안정적인 서비스 운영을 위해 모니터링 |
Kakao i Machine Learning 리소스 구조
Kakao i Machine Learning에서 생성되는 리소스의 구조와 관계는 다음과 같습니다.
그림Kakao i Machine Learning 리소스 간의 관계 도식화
- 스토리지에 저장한 데이터를 데이터세트로 등록합니다.
- 컴퓨팅 인스턴스에서 모델을 개발합니다.
- 데이터세트와 이미지를 참조하여 모델 개발을 위한 실험 및 실행을 진행합니다.
- 학습이 완료된 실행을 모델로 생성합니다.
- 사용자가 실험 및 실행으로 생성한 모델 또는 업로드한 모델을 엔드포인트에 배포합니다.
Kakao i Machine Learning을 이용한 ML 워크플로우
Kakao i Machine Learning을 이용하여 다음과 같은 ML 워크플로우를 수행할 수 있습니다.
그림Kakao i Machine Learning 라이프 사이클
- 스토리지에 데이터를 업로드하고, 모델 학습을 위한 데이터세트를 등록할 수 있습니다.
- Jupyter Notebook 기반 개발 환경에서 모델을 개발합니다.
- 등록한 데이터세트로 모델을 학습합니다.
- 모델 학습
- 모델 평가
- 분산 학습
- 학습한 모델을 등록하거나, 학습이 완료된 모델을 불러오거나 학습한 모델을 등록하고 모델 버전과 형상을 관리합니다.
- 학습한 모델을 추론하거나 프로덕션 환경에 서빙하기 위해 엔드포인트에 배포합니다.
- 엔드포인트에서 배포를 미러링하거나 트래픽을 할당합니다.
- 모델 및 엔드포인트 상태를 모니터링합니다.
안내
Kakao i Machine Learning을 이용해 간단한 모델을 만들고 배포하는 튜토리얼은 PyTorch로 학습하기 문서를 참고하시기 바랍니다.