주제별 데이터의 집합이자, 관련된 데이터를 충분히 모아 즉각적 활용이 가능하도록 정리하여 공개하는 데이터

기술개발 목표, 임상상황, 데이터에 대한 깊은 이해에 기반하여 데이터셋 요소 분석 및 디자인 결정

- 대상환자군(Eligible Population): 질병 내에서도 특정 환자군 (예시; 위수술 받은 환자) 결정

- 기술개발의 목적(Purpose): 진단목적, 프로세스 개선, 임상결정지원, 정보의 시각화 등

- 필요한 의료데이터 종류: EMR 정보, Imaging, 오믹스, 삶의 질, 생존 등

- 데이터 소스(Source): 단일기관 vs 다기관, 지역, 후향적 vs 전향적 수집 등

- 규정(Regulation) : 각 병원/기관 규정, IRB, 국가적 가이드라인에 부합하는지 결정

영상 DICOM 형식, EMR 임상정보의 CDM 변환, 오믹스정보의 국제표준형식 등 데이터 표준화 추출

목적에 맞는 전문가 (임상의사, 의무기록사, 연구간호사 등)의 Data Curation & labelling 을 통한 데이터 선별