컴퓨팅 인스턴스
공공 클라우드 환경 미지원 안내
카카오 i 머신러닝 운영 환경(퍼블릭/공공)에 따라 제공하는 기능이 다를 수 있습니다. 컴퓨팅 인스턴스는 퍼블릭 환경에서만 제공합니다. 공공 클라우드 환경에서 지원 가능한 시점에 카카오클라우드 (공공 리전2) 공지사항으로 안내할 예정입니다.
컴퓨팅 인스턴스(Compute Instance)는 기계학습 모델의 개발을 손쉽게 시작할 수 있는 가상의 컴퓨팅 자원입니다.
Kakao i Machine Learning은 기계 학습에 필요한 개발 환경을 관리하고 구성하여 사용자가 모델의 개발부터 테스트 목적 등 다양한 작업을 수행할 수 있도록 지원합니다. 컴퓨팅 인스턴스를 활용하여 사전 구성된 이미지로 최신 ML 패키지, 딥 러닝 프레임워크 및 GPU 드라이버가 설치에 필요한 시간을 단축하고, 보안 관리 정책 및 네트워크 구성을 손쉽게 설정할 수 있습니다.
컴퓨팅 인스턴스 특이사항
-
워크스페이스의 구성원 누구나 컴퓨팅 인스턴스를 생성, 정지, 시작, 삭제를 요청하고 접속할 수 있습니다.
-
실행 중인 컴퓨팅 인스턴스는 학습용 컴퓨팅 자원 쿼터를 점유하므로, 워크스페이스에 할당된 컴퓨팅 자원을 초과하여 생성할 수 없습니다.
-
컴퓨팅 인스턴스 환경에서는 워크스페이스에 등록된 스토리지의 모든 권한을 보유합니다.
-
KiML CLI 환경에서 SSH로 접속하거나 노트북의 JupyterLab 환경에서 컴퓨팅 인스턴스에 접속할 수 있습니다.
Running
상태의 인스턴스만 노트북의 JupyterLab과kiml compute-instance exec
명령어를 실행할 수 있습니다. -
컴퓨팅 인스턴스 유휴 시간(Idle time)은 인스턴스 타입에 따라서 2~8시간입니다. 해당 시간 동안 유휴 상태일 경우, 자동으로 종료될 수 있습니다.
주의
- 컴퓨팅 인스턴스 생성 시, 워크스페이스 컴퓨팅 자원 쿼터 내에서 인스턴스 구성을 선택할 수 있습니다.
- 컴퓨팅 인스턴스 생성 완료 이후, 인스턴스 구성(타입과 개수 선택)을 변경할 수 없습니다.
Initializing
,Running
,Pending
상태의 컴퓨팅 인스턴스는 워크스페이스 쿼터를 점유합니다.
컴퓨팅 인스턴스 상태값
표컴퓨팅 인스턴스 상태값상태 | 설명 |
---|---|
Pending | 컴퓨팅 인스턴스 생성 요청이 대기열에 있으며, 유휴 자원 생성 대기 중 또는 이미지를 불러오는 상태 |
Initializing | 컴퓨팅 자원을 할당받아, 사용자의 요청에 맞는 환경으로 구성 중인 상태 |
Running | 컴퓨팅 인스턴스의 구성이 정상적으로 완료되어 동작 중인 상태 |
Stopping | 컴퓨팅 인스턴스의 동작 상태를 저장하고, 자원을 반납 중인 상태 |
Stopped | 자원 반납이 완료되었으며, 컴퓨팅 인스턴스의 정지 전 환경이 저장된 상태 - 정지 시점의 컴퓨팅 인스턴스 구성 별도 저장됨 - 컴퓨팅 인스턴스 재시작 시, 이전과 동일한 환경 이용 가능 |
Deleting | 컴퓨팅 인스턴스와 관련된 모든 자원을 반납하고, 데이터를 삭제 중인 상태 |
Failed | 잘못된 요청으로 오류가 발생한 상태 - Failed 상태의 컴퓨팅 인스턴스 정지 후 재시작 가능 - 컴퓨팅 인스턴스 조회 시점에 학습용 쿼터 반납됨 |
발생 원인 - 컴퓨팅 인스턴스 구성으로 선택한 커스텀 이미지가 정상적이지 않은 경우 |
|
Issued | Kakao i Machine Learning 플랫폼에서 오류가 발생한 상태 |
안내
- 커스텀 이미지로 컴퓨팅 인스턴스를 생성하는 것보다, 컴퓨팅 인스턴스에 접속하여 Python 패키지를 직접 설치하는 것을 권장합니다.
- 인피니밴드를 이용하는 경우, 8GPU 이상의 인스턴스 타입을 이용하시기 바랍니다.
컴퓨팅 인스턴스 구성
표컴퓨팅 인스턴스 구성항목 | 설명 |
---|---|
컴퓨팅 인스턴스 이름 | 컴퓨팅 인스턴스의 이름 - 워크스페이스 내에서 고유해야 함 - 공백 없이, 영어 소문자(a-z), 숫자(0-9), 하이픈( - )만 사용- 영어 소문자(a-z)로 시작하며, 소문자(a-z) 또는 숫자(0-9)로 끝나야 됨 - 2~63자 입력 가능 |
컴퓨팅 인스턴스 설명(선택) | 컴퓨팅 인스턴스의 설명 - 최대 1,024자 이내로 작성 |
이미지 | 컴퓨팅 인스턴스를 구성할 기본 이미지 또는 커스텀 이미지 선택 |
기본 이미지: 학습용 기본 이미지만 선택 가능 | |
커스텀 이미지: - 컴퓨팅 인스턴스 생성을 위한 커스텀 이미지 필요 조건: Ubuntu 기반 OS, Python3 - 컴퓨팅 인스턴스 생성 시, 커스텀 이미지에 자동으로 설치되는 패키지: JupyterLab, Jupyterlab Plugins (IPyWidgets, jupyterlab-lsp), openssh-server |
|
인스턴스 타입 | 컴퓨팅 인스턴스를 구성하는 컴퓨팅 자원 - 인스턴스 1개 생성 - Initializing , Running , Pending 상태의 컴퓨팅 인스턴스는 워크스페이스에 할당된 학습용 컴퓨팅 자원을 점유 |
안내
커스텀 이미지를 이용하여 컴퓨팅 인스턴스 생성 시, 필수 조건이 충족되지 않거나 자동으로 설치되는 패키지와 충돌이 발생할 경우에는 정상적으로 동작하지 않을 수 있습니다.
컴퓨팅 인스턴스 이미지
컴퓨팅 인스턴스 정지(Stopped) 시, 컴퓨팅 인스턴스 환경이 KakaoCloud > Container Registry 이미지로 저장됩니다. 이미지 경로로 접근하여 컴퓨팅 인스턴스를 도커 이미지로 관리할 수 있습니다. 이용하는 Kakao i Machine Learning 환경에 따라, 이미지 경로는 상이합니다.
- 공공 클라우드 환경:
kiml-gov.kr-gov-central-1.kcr.dev/cosmos-build/computer-{컴퓨팅 인스턴스 UUID}
JupyterLab
컴퓨팅 인스턴스 생성 시, JupyterLab이 자동으로 설치됩니다.
- 컴퓨팅 인스턴스 > 컴퓨팅 인스턴스 정보 탭에서 JupyterLab 접속 URL을 확인할 수 있습니다.
- KiML CLI에서 kiml compute-instance lab 명령어를 실행하여 JupyterLab에 접속할 수 있습니다.
- JupyterLab 접근은
Running
상태의 컴퓨팅 인스턴스에서만 가능합니다.
컴퓨팅 인스턴스 수정
생성한 컴퓨팅 인스턴스 구성을 변경할 수 있습니다. 인스턴스 타입 변경은 Stopped
상태의 컴퓨팅 인스턴스만 가능합니다.
수정을 지원하지 않는 항목은 다음과 같습니다.
- 컴퓨팅 인스턴스 이름
- 이미지
컴퓨팅 인스턴스 모니터링
컴퓨팅 인스턴스 상세 정보에서 컴퓨팅 자원 사용량을 실시간으로 조회할 수 있습니다.
- GPU, GPU Memory Utilization
- vCPU, vCPU Memory Utilization
- Power Consumption
- Network I/O Bandwith
컴퓨팅 인스턴스 유휴 자원 정지
GPU 타입 인스턴스는 A100, V100 등 인스턴스 타입과 구분 없이 GPU 장(card) 기준으로 유휴 상태 시간이 적용되며, GPU와 CPU 사용률이 모두 0.1% 미만으로 일정 시간 유지되면 자동으로 정지됩니다. 컴퓨팅 리소스를 효율적으로 활용하기 위해 컴퓨팅 인스턴스를 일정 시간 사용하지 않으면 자동으로 정지됩니다.
컴퓨팅 인스턴스가 정지되면 정지된 시점의 환경은 자동으로 저장됩니다. 컴퓨팅 인스턴스를 시작할 경우에 저장된 정보를 불러와 동일한 환경으로 컴퓨팅 인스턴스 이용이 가능합니다. 콘솔 또는 KiML CLI 환경에서 정지된 컴퓨팅 인스턴스 재시작을 요청할 수 있습니다.
표컴퓨팅 인스턴스 타입별 유휴 상태 시간인스턴스 타입 | 유휴 자원 조건 | GPU Card | 유휴 상태 시간 |
---|---|---|---|
GPU 타입 | GPU 및 CPU 사용률(Utilization) 0.1% 미만 | 1장 | 8시간 |
2장 | 4시간 | ||
4장 | 2시간 | ||
8장 | 2시간 | ||
CPU 타입 | CPU 사용률(Utilization) 0.1% 미만 | - | 8시간 |
유휴 자원 자동 정지 알림 조건
컴퓨팅 인스턴스 유휴 자원 자동 정지 알림 조건은 다음과 같습니다.
- 자동 정지 1시간 전, 예정 알림
- 자동 정지 후, 자동 정지 알림
예를 들어, 2A100 GPU 인스턴스 사용률이 3시간 동안 평균 1% 미만으로 유지되면 자동 정지 예정 알림을 발송합니다.
알림을 발송한 이후 1시간 동안 사용량이 측정되지 않은 경우는 자동으로 정지되며 정지 안내 알림이 발송됩니다.