구분 | 품질관리지표 | 품질관리 지표 설명 |
---|---|---|
AI 학습용 데이터 | 적합성 |
학습용도 적합성을 측정하는 지표 (기준적합성) 다양성, 신뢰성, 충분성, 사실성 (기술적합성) 파일포맷, 해상도, 선명도, 컬러, 크기, 길이, 음질 등 통계적 다양성 : 클래스 분포도, 인스턴스 분포도, 문장길이, 어휘 개수 등 |
정확성 |
라벨링 정확성을 측정하는 지표 (의미 정확성) 정확도, 정밀도, 재현율을 측정하는 지표 (구문 정확성) 라벨링 데이터를 구성하는 속성 값들과 원래 정의한 데이터 형식 및 입력 값 범위와의 일치성을 측정하는 지표 |
|
빅데이터 | 완전성 | 데이터의 저장소인 데이터베이스를 구축함에 있어 논리적인 설계와 물리적인 구조를 갖추고, 업무 요건에 맞게 데이터가 저장되도록 설계·구축 되었는지를 진단하는 지표 |
유효성 | 데이터가 의도한 범위와 형식으로 구성되어 해당 범위와 형식에 벗어나지 않고 본래의 효과를 제공하며 추적 가능한지 진단하는 지표 | |
일관성 | 같은 의미를 갖는 데이터는 표준을 준수하여 동일한 용어와 도메인으로 정의하고 중복, 연계 데이터의 값이 서로 일치하는지 진단하는 지표 | |
정확성 | 데이터가 실세계 사실 및 업무규칙에 맞게 정확한 값이 저장되어 있는지를 진단하는 지표 | |
준비성 | 데이터 품질관리를 위해 기본적으로 관리해야 하는 정책, 규정, 조직, 절차 등을 마련하고, 최신의 내용으로 충실하게 관리되는지를 진단하는 지표 | |
보안성 | 데이터 관리 주체가 관리되고 외부 및 내부 요인으로부터 데이터를 보호하기 위해 접근이 적절히 통제되며 개인정보 등 주요 데이터에 대하여 보호 조치가 이루어져 있는지 진단하는 지표 | |
유용성 | 사용자가 만족하는 수준의 충분한 정보가 수집되고 제공되는지, 사용자의 정보 이용에 만족도를 충족하는지, 데이터의 범위와 상세화 정도를 충족시키는지를 진단하는 지표 | |
접근성 | 사용자가 원하는 데이터를 손쉽게 사용할 수 있는지 진단하는 지표 | |
적시성 | 사용자가 원하는 시점에 데이터의 주기에 따른 가장 최신 데이터를 유지하는지 진단하는 지표 |
품질진단방법 | 방법 설명 | |
---|---|---|
프로파일링 | 값 진단 |
데이터 값의 유효성, 정확성 등 데이터 값 자체 오류를 분석하는 방법
- 컬럼분석, 날짜분석, 패턴분석, 코드분석 등을 통해 데이터 값의 정확성을 중심으로 진단 |
구조진단 |
논리적 데이터 구조의 오류로 인한 일관성, 정합성 등을 확보하지 못하는 결함을 분석하고 진단하는 방법
- 표준화 수준(코드, 도메인 등), 테이블 구조, 정규화 수준, 컬럼 및 관계 정의 등 데이터의 구조적 결함 측정 |
|
체크리스트(인터뷰·설문) | 전반적인 데이터 품질관리 수준과 지표별 데이터 품질 수준을 체크리스트(설문 또는 인터뷰)를 통해 진단하는 방법 | |
업무규칙 진단 |
법, 규정에 정의된 업무기준(산출식)에 근거하여 데이터가 관리되고 있는지를 진단하는 방법
- 업무규칙(BR; Business Rule)을 준수하고 있는지에 관한 측정 스크립트(SQL등)를 실행하여 오류 값을 추출 |
|
비정형 실측 |
문서, 이미지, 동영상 등 정형화되어 있지 않는 정보를 사람이 직접 확인(실측)을 통하여 오류 여부를 진단하는 방법
- 별도 도구 없이 직접 정보를 조회하거나 해당 문서를 수기로 확인 등 |