데이터세트
데이터세트(Dataset)란 Kakao i Machine Learning에서 학습 데이터가 저장된 스토리지의 위치에 해당하는 메타 정보입니다. 데이터세트는 Kakao i Machine Learning에서 학습을 실행할 때, 실험의 파드(Pod)에 원격 저장소를 마운트하는 용도로 사용됩니다.
데이터세트 만들기
데이터세트를 만드는 방법은 크게 두 가지이며, 인터페이스에 따라 지원 범위가 달라집니다.
- 스토리지의 특정 경로에 저장된 폴더를 데이터세트로 등록 (Console, CLI)
- 로컬 파일을 기본 스토리지에 업로드 및 데이터세트로 등록 (Console) (추후 지원 예정)
주의
데이터세트 버전 관리를 지원하지 않습니다. 데이터세트가 지칭하는 스토리지의 특정 폴더에 파일을 추가하거나 수정하더라도 여전히 동일한 데이터세트로 인식됩니다.
데이터세트 이름 정책
표데이터세트 이름 정책항목 | 설명 |
---|---|
데이터세트 이름 | - 워크스페이스 내에서 고유함 - 공백 없이, 영어 소문자(a-z), 숫자(0-9), 하이픈( - )만 사용 - 영어 소문자(a-z)로 시작하며, 소문자(a-z) 또는 숫자(0-9)로 끝나야 됨 - 2~63자 입력 가능 |
데이터세트 설명(선택) | 데이터세트 설명이 필요할 경우 입력 - 최대 1,024자 이내로 작성 |
데이터세트 파일 조회하기
데이터세트로 등록된 파일을 콘솔에서 폴더 디렉토리와 파일을 조회할 수 있습니다.
- 파일 크기가 5MB 초과하는 파일은 미리보기를 지원하지 않습니다.
- 텍스트 기반의 파일 유형(yaml, py, pkl, text, xml, csv, json, md)은 미리보기를 지원합니다.