Business
미래사회에 비전을 제시하는 수준높은
Total IT Service 전문기업
데이터 품질진단
AI, 빅데이터 플랫폼 구축 과정에서 데이터 수집 및 전처리(정제, 가공) 과정의 품질관리업무 및 기업(발주사)에서 보유하고 있는 데이터에 대한 품질진단업무를 수행합니다.
수행방안
AI(인공지능)/빅데이터 플랫폼 품질관리
구분 품질관리지표 품질관리 지표 설명
AI 학습용 데이터 적합성 학습용도 적합성을 측정하는 지표
(기준적합성) 다양성, 신뢰성, 충분성, 사실성
(기술적합성) 파일포맷, 해상도, 선명도, 컬러, 크기, 길이, 음질 등
통계적 다양성 : 클래스 분포도, 인스턴스 분포도, 문장길이, 어휘 개수 등
정확성 라벨링 정확성을 측정하는 지표
(의미 정확성) 정확도, 정밀도, 재현율을 측정하는 지표
(구문 정확성) 라벨링 데이터를 구성하는 속성 값들과 원래 정의한 데이터 형식 및 입력 값 범위와의 일치성을 측정하는 지표
빅데이터 완전성 데이터의 저장소인 데이터베이스를 구축함에 있어 논리적인 설계와 물리적인 구조를 갖추고, 업무 요건에 맞게 데이터가 저장되도록 설계·구축 되었는지를 진단하는 지표
유효성 데이터가 의도한 범위와 형식으로 구성되어 해당 범위와 형식에 벗어나지 않고 본래의 효과를 제공하며 추적 가능한지 진단하는 지표
일관성 같은 의미를 갖는 데이터는 표준을 준수하여 동일한 용어와 도메인으로 정의하고 중복, 연계 데이터의 값이 서로 일치하는지 진단하는 지표
정확성 데이터가 실세계 사실 및 업무규칙에 맞게 정확한 값이 저장되어 있는지를 진단하는 지표
준비성 데이터 품질관리를 위해 기본적으로 관리해야 하는 정책, 규정, 조직, 절차 등을 마련하고, 최신의 내용으로 충실하게 관리되는지를 진단하는 지표
보안성 데이터 관리 주체가 관리되고 외부 및 내부 요인으로부터 데이터를 보호하기 위해 접근이 적절히 통제되며 개인정보 등 주요 데이터에 대하여 보호 조치가 이루어져 있는지 진단하는 지표
유용성 사용자가 만족하는 수준의 충분한 정보가 수집되고 제공되는지, 사용자의 정보 이용에 만족도를 충족하는지, 데이터의 범위와 상세화 정도를 충족시키는지를 진단하는 지표
접근성 사용자가 원하는 데이터를 손쉽게 사용할 수 있는지 진단하는 지표
적시성 사용자가 원하는 시점에 데이터의 주기에 따른 가장 최신 데이터를 유지하는지 진단하는 지표
데이터 품질진단 방법
품질진단방법 방법 설명
프로파일링 값 진단 데이터 값의 유효성, 정확성 등 데이터 값 자체 오류를 분석하는 방법

- 컬럼분석, 날짜분석, 패턴분석, 코드분석 등을 통해 데이터 값의 정확성을 중심으로 진단

구조진단 논리적 데이터 구조의 오류로 인한 일관성, 정합성 등을 확보하지 못하는 결함을 분석하고 진단하는 방법

- 표준화 수준(코드, 도메인 등), 테이블 구조, 정규화 수준, 컬럼 및 관계 정의 등 데이터의 구조적 결함 측정

체크리스트(인터뷰·설문) 전반적인 데이터 품질관리 수준과 지표별 데이터 품질 수준을 체크리스트(설문 또는 인터뷰)를 통해 진단하는 방법
업무규칙 진단 법, 규정에 정의된 업무기준(산출식)에 근거하여 데이터가 관리되고 있는지를 진단하는 방법

- 업무규칙(BR; Business Rule)을 준수하고 있는지에 관한 측정 스크립트(SQL등)를 실행하여 오류 값을 추출

비정형 실측 문서, 이미지, 동영상 등 정형화되어 있지 않는 정보를 사람이 직접 확인(실측)을 통하여 오류 여부를 진단하는 방법

- 별도 도구 없이 직접 정보를 조회하거나 해당 문서를 수기로 확인 등

수행절차
AI(인공지능)/학습용 데이터 품질관리 절차
빅데이터 품질관리 절차
품질진단 정의
품질관리 계획
데이터셋(테이블) 단위선정
항목(컬럼) 단위선정
품질진단 수행
품질진단 수행계획
품질진단 규칙정의
품질진단 실시
품질진단 결과
진단결과 분석
오류원인 분석
개선기회도출
개선수행
품질개선 과제정의
품질개선 계획수립
품질개선 환경준비
품질개선 수행
품질통제
개선결과 평가
품질목표 관리
품질통제 실시
기대효과
01
고품질 데이터
가치 극대화
02
데이터 품질제고에 의한 분쟁
최소화 및 고객 신뢰도 확보
03
데이터 수요 기관 저품질 데이터로
인한 경제적 피해 예방