대메뉴 바로가기 본문 바로가기

데이터 기술 자료

데이터 기술 자료 상세보기
제목 데이터 품질관리 솔루션 SDQ
등록일 조회수 12445
첨부파일  

데이터 품질관리 솔루션 SDQ



최근 들어, 빅데이터에 대한 관심으로 데이터의 중요성에 대한 인식이 점차 높아지고, 이를 효과적으로 분석하고 활용하기 위해서는 데이터 품질이 선결요건으로 이해되기 시작했습니다. 특히 공공기관의 경우는 국가 차원의 공공정보 공개, 개방에 대한 정책 추진과 맞물려 품질관리에 대한 관심과 투자가 점차 높아지고 있는 추세입니다.

고품질 데이터 활용에 대한 공감대가 형성되는 상황에서 전사 차원의 산재되어 있는 데이터를 효율적으로 관리하는데 도움을 주는 ‘SDQ’에 대해 설명합니다.



1. SDQ는

SDQ는 데이터 품질관리 솔루션으로 스케줄러와 프로파일링 프로세스를 이용하여 진단 룰을 간편하게 적용하고 실행할 수 있습니다. 또한, ‘DQ’ 기능과 ‘META’ 기능의 통합으로 데이터 값 진단 이외에 데이터표준, 데이터구조 영역의 진단을 수행할 수 있으며 진단결과 화면과 진단결과 리포트 기능을 제공합니다.



2. SDQ 설치

직접 설치해본 결과 SDQ의 설치는 간단합니다. 제공되는 패키지 파일 실행한 후 “NEXT” 버튼을 클릭하여 진행합니다. 제품소개를 참조해보니 지원 OS는 Windows 32, 64Bit 이며 Server 및 Client의 운영환경은 다음과 같습니다.

< Server >
- CPU : Quad Core, 2.13GHz 권장 /Dual Core , 2.00GHz 최소
- HardDisk Space : 18 Giga bytes
- RAM Memory : 1 Giga bytes
- JDK Version : JDK 1.6 이상

< Client >
- 인텔 코어 1.5GHz 이상
- 인터넷접속가능(모뎀 or LAN)
- Web 접속이 가능한 GUI 환경을 제공하는 OS
- 최소 1024X768 화면 해상도
- Chrome B또는 Internet Explorer 9 이상의 브라우저 사용



3. SDQ 주요기능

SDQ의 주요기능은 다음과 같이 9가지 입니다.

- SDQ 메인화면(대시보드)
- 진단대상 관리
- 진단대상 프로파일링
- 진단규칙설정
- 진단 스케줄러
- 품질 진단실행
- 진단결과 / 결과리포트
- 표준메타관리
- 시스템 권한관리



4. SDQ 화면 소개

4.1 로그인


[그림 1-1] SDQ 로그인 화면
SDQ 설치 완료 후 접속을 위해 웹 브라우저(크롬)에서 접속하였고, ID/ PASSWORD 입력 후 ‘로그인’ 을 통해 접속해 보았습니다.

4.2 메인화면


[그림 2-1] SDQ 메인화면
로그인에 성공하면 그림(2-1)과 같이 SDQ의 메인화면을 볼 수 있습니다. 데이터품질 상시 모니터링이 가능하도록 화면 상단의 6개 메뉴와 값, 표준, 구조품질 수준을 확인할 수 있는 시각화된 대시보드가 보입니다. 또한 각 영역의 'view more'를 클릭해 보니 관련 상세 페이지로 바로 이동됨을 확인할 수 있었습니다.

자 그럼 지금부터 SDQ 기능을 하나씩 살펴보도록 하겠습니다.

4.3 진단대상관리


[그림 3-1] 진단대상관리 메뉴
진단대상관리 메뉴에는 ‘진단대상DB관리’, ‘진단테이블선정’, ‘진단테이블범위조건등록’과 같이 SDQ에서 품질진단을 하기 위해 가장 처음 진행 되어야 할 진단 준비 단계입니다.

<진단대상DB관리>


[그림 3-2] 진단대상DB관리 전체화면
진단대상 DB관리의 전체화면입니다. ‘진단대상DB관리’, ‘진단대상DB 상세정보’, ‘스키마정보’ 항목이 보이는데 SDQ가 진단대상 DB에 접속하기 위한 기본정보를 입력하는 화면으로 보입니다.



[그림 3-3] 진단대상DB 등록

진단대상DB관리 전체화면에서 ‘신규등록’ 버튼을 눌러보니 위와 같은 화면이 출력되었습니다. 각 항목에 맞게 진단대상DB 정보를 입력 등록 한 후 ‘연결확인’을 눌러 연결성공여부가 ‘Y’로 바뀌어야 등록이 완료되는 것을 확인하였습니다. 진단대상DB 등록 완료 후 진단대상 테이블에 대한 정보를 얻고자 전체화면 우측 상단 ‘스키마정보’항목의 ‘수집실행’과 ‘한글화’ 버튼을 클릭해 보았습니다. 시간은 오래 걸리지 않았고, 일부 테이블에 대하여 수집을 원할 경우 해당 테이블만 체크한 후 동일한 방법으로 수행하면 됩니다. (스키마정보를 수집하지 않을 경우 진단을 수행할 수 없습니다.) 설정 하면서 약간 아쉬운 점이 있었다면, ‘Oracle’, ‘Tibero’, ‘Postgresql’ 이외에 다른 DBMS는 지원이 되지 않는다는 점이었습니다.

<진단테이블선정>


[그림 3-4] 진단테이블선정 전체화면
진단대상DB에서 품질진단 대상 테이블을 선정하는 화면입니다. 진단대상DB의 테이블 개수가 적은 사용자는 비대상 테이블을 체크박스 체크 후 등록할 수 있으며 테이블 개수가 많은 사용자는 ’내려받기’ 버튼을 클릭하여 일괄등록 엑셀 양식을 다운 및 작성 후 ‘비대상일괄등록‘ 기능(엑셀업로드)을 이용하여 등록할 수 있었습니다. 또한 ‘프로파일링 예약’ 버튼을 클릭해보니 ‘진단대상DB의 통계정보’를 수집하는 스케쥴러의 주기 를 설정할 수 있었습니다.

<진단테이블범위조건등록>


[그림 3-5] 진단테이블범위조건등록 전체화면

진단테이블 범위조건은 대상 테이블 중 전체 데이터가 아닌 특정 기간 동안의 데이터, 특정 조건의 데이터, 특정 업무에 한정되는 데이터만을 진단하는 경우 테이블의 조건에 맞게 SQL의 WHERE절 이하를 작성하여 진단 테이블의 범위 조건을 등록하면 됩니다. 진단범위지정 입력 시 반드시 ‘AND’ 이후로 입력되어야 하며 입력된 SQL을 시스템에서 검증 후 ‘Success’, ’Fail’ 중 한가지 결과를 보여 줍니다. SQL 작성시 해당 테이블의 컬럼이 생각나지 않을 경우 ‘컬럼보기’를 클릭하면 컬럼 목록을 확인할 수 있습니다.

테이블진단범위지정 설정에는 ‘일괄등록’ 기능이 존재하지 않아 화면에서 개별 등록만 가능한 것 으로 확인됩니다.

4.4 진단규칙설정


[그림 4-1] 진단규칙설정 메뉴
진단규칙설정 메뉴는 진단대상DB에 대한 설정을 완료한 후 이제 어떠한 진단규칙들을 적용하여 진단을 해야할 것인지 설정하기 위한 메뉴입니다.
‘도메인규칙설정’, ‘데이터규칙설정’, ‘업무규칙설정’ 화면으로 구성되어 있습니다.

<도메인규칙설정>


[그림 4-2] 도메인규칙설정 전체화면
도메인규칙설정 전체 화면입니다. ‘진단대상테이블목록’과 ‘진단 설정’ 항목이 보입니다. 대상테이블을 클릭한 후 ‘진단 설정’ 에서 해당 컬럼을 클릭해 보니 그림(4-3)과 같이 ‘검증기준 설정’ 팝업이 나옵니다. 개별 검증유형 적용은 해당 팝업에서 설정할 수 있었고, 일괄등록 시에는 ‘검증유형일괄등록‘ 기능(엑셀업로드)을 이용하여 등록할 수 있었습니다. ‘분석보기’의 돋보기를 클릭해보니 검증기준 설정 시 필요한 ‘통계’, ‘분포분석’ 등의 정보를 확인할 수 있습니다. ‘분석보기’ 기능은 데이터를 직접 조회해 보지 않아도 검증유형을 설정할 수 있어 편리했습니다.



[그림 4-3] 검증기준 설정
‘검증룰관리’ 버튼을 클릭하면 사용자가 새로운 룰을 직접 등록할 수 있습니다.



[그림 4-4] 검증룰관리
검증 룰 신규등록 방법은 간단했습니다. ‘신규’ 버튼을 클릭하여 검증 룰 상세 정보를 입력하고 저장버튼을 눌러주면 됩니다. ‘여부’, ‘범위’, ’날짜’, ’형식’ 검증유형 중 ‘형식’의 경우 사용자가 검증 룰 입력란에 정규식을 직접 입력할 수 있어 룰을 만들어 쉽게 관리할 수 있도록 구성되었습니다.

(검증룰관리는 ‘관리메뉴’ 의 ‘DQ검증룰관리’에서도 설정 가능합니다. )

<데이터규칙설정>



[그림 4-5] 데이터규칙 설정
그림(4-5)는 데이터규칙 설정 화면입니다. ‘참조무결성’, ‘필수값완전성’, ‘데이터중복진단’과 같이 총 3가지의 규칙을 설정할 수 있습니다. ‘필수값완전성’은 진단대상선택 개별 체크 후 저장 혹은 일괄등록 시에는 ‘진단대상일괄등록‘ 기능(엑셀업로드)을 이용하여 등록할 수 있으며 ‘참조무결성등록’의 경우 우측 상단의 ‘참조무결성등록’ 버튼을 눌러 진단대상 테이블과 참조테이블을 선택 한 후 컬럼정보 화면에서 ‘조인순서’를 설정 한 후 등록할 수 있습니다. 마지막으로 ‘데이터중복진단’은 진단대상 테이블의 ‘가상PK 순서’ 설정을 마친 후 ‘저장’을 통하여 등록할 수 있습니다.

<업무규칙설정>



[그림 4-6] 업무규칙 설정 전체화면
업무규칙은 업무와 관련된 데이터 관리문서에 명시된 데이터 규칙, 업무담당자가 지식으로 알고 있는 규칙, 응용프로그램에 코딩 된 규칙 등을 뜻하며 이러한 규칙에 대한 진단 룰을 도출하고 업무규칙을 등록해야 합니다. 상단의 ‘업무규칙등록’ 버튼을 누르면



[그림 4-7] 업무규칙 등록

그림(4-7)과 같이 업무규칙 등록 화면이 나옵니다. ‘대상 전체건수 SQL’, ‘오류추정건수 SQL’, ‘오류결과 SQL’ 3가지 항목에 사용자가 직접SQL을 입력해야 하며 ‘오류결과 SQL’ 항목만 SELECT절, 나머지는 FROM 절 부터 작성해야 합니다. 한마디로 업무규칙설정 기능은 SQL을 작성할 수 있어야만 진단이 가능해 보입니다.

4.5 진단실행


[그림 5-1] 진단실행 메뉴
진단 JOB관리는 검증유형에 따른 진단규칙 설정이 완료 된 대상에 대하여 ‘진단실행’을 하기 위한 메뉴입니다. 진단 JOB관리에서는 컬럼에 적용한 진단 룰 또는 업무규칙을 JOB 단위로 등록하고 진단을 수행 하게 됩니다. (여기서 JOB은 하나의 진단 실행 묶음으로 이해 하시면 됩니다.)



<진단JOB관리>


[그림 5-2] 진단JOB관리 전체화면
진단JOB 등록 화면은 ‘JOB 기본정보’, ‘JOB 스케쥴정보’, ‘진단항목’으로 구성되어 있으며 JOB 등록을 하기 위해 ‘JOB 등록’ 버튼을 눌러 보도록 하겠습니다.



[그림 5-3] JOB 등록
‘진단 JOB 상세정보’ 팝업에서 진단항목 설정과 ‘JOB 스케쥴정보’를 등록 합니다. 만약 주기적인 진단이 필요한 경우가 아니라면 ‘진단JOB관리’ 전체화면 우측의 ‘선택진단항목개별실행’을 통하여 비정기적인 진단 수행이 가능하고, 진단수행 SQL이 필요한 경우 진단 실행 완료 후 ‘SQL’ 돋보기 버튼을 클릭 하여 확인할 수 있습니다.

4.6 진단결과


[그림 6-1] 진단결과 메뉴
진단실행의 결과 값을 볼 수 있는 메뉴입니다. ‘값’, ‘표준’, ‘구조’, ‘종합’, ’테이블별진단결과’, ’주제영역별진단결과’ 화면은 어떤 정보를 담고 있는지 살펴보도록 하겠습니다.

<값진단결과>


[그림 6-2] 값진단결과 전체화면
데이터 값 진단은 데이터베이스의 테이블, 컬럼, 코드, 관계, 업무규칙 등을 기준으로 데이터의 값을 분석하여 품질 진단하는 것을 의미합니다. 앞서 설명 하였던 ‘진단규칙설정’ 메뉴에 포함 된 설정 모두가 값 진단영역에 포함됩니다. 진단결과는 그림(6-2)과 같이 차트와 그리드로 보입니다.



[그림 6-3] 값진단 결과 오류데이터 상세

오류 데이터와 관련 된 상세내역 확인은 하단의 검증 우측 상단의 ‘상세’ 돋보기를 통해 가능하였습니다. 상세내역에서는 오류 데이터와 진단SQL(전체건수, 오류건수, 오류데이터)을 확인할 수 있으며 오류데이터의 경우 최대 1000건 까지만 화면에 출력됩니다.

<표준진단결과>



[그림 6-4] 표준진단결과 전체화면
표준진단은 META 정보를 기준으로 진단대상 DB에 사용되고 있는 컬럼들의 정의 불일치, 도메인준수, 표준용어 준수 항목에 대한 진단입니다. 진단에 필요한 설정을 사용자가 하지 않고 SDQ의 기본 검증 룰에 의해 진단이 수행됩니다. 진단결과는 차트와 그리드로 보여지며 좌측 하단의 검증 룰 항목을 클릭하여 오류 추정데이터를 확인할 수 있습니다. (표준진단결과는 META로 표준이 관리되는 시스템의 경우에 유효합니다.)

<구조진단결과>


[그림 6-5] 구조진단결과 전체화면
데이터 구조 진단은 현행 데이터베이스의 구조 무결성 · 데이터 구조 표준화 · 관리 수준 · 변경 관리 등의 현황 진단입니다. 진단에 필요한 설정을 사용자가 하지 않고 SDQ의 기본 검증 룰에 의해 진단이 수행됩니다. SDQ 기본 검증 룰 ‘미사용컬럼’, ‘미사용테이블’, ‘기본키미정의테이블’, ‘테이블중복’의 진단결과가 차트와 그리드로 보여지며 좌측 하단의 검증 룰 항목을 클릭하게 되면 오류 추정데이터가 출력 되게 됩니다.



<종합진단결과>


[그림 6-6] 종합진단결과 전체화면
데이터 표준, 데이터 구조, 데이터 값의 진단결과 및 분석 영역을 한 화면에서 확인할 수 있습니다. ‘종합결과 엑셀다운’, ‘오류상세 엑셀다운’을 통해 진단결과리포트 및 오류상세를 확인할 수 있습니다. 또한 ‘가중치관리’를 통해 진단결과에 대한 오류비중을 설정할 수 있습니다.

<테이블별진단결과>



[그림 6-7] 테이블별진단결과 전체화면
앞선 진단결과들의 경우 분석영역에 대한 통계 결과를 확인하는 화면 이었다면 ‘테이블별진단결과’는 진단이 완료된 테이블 컬럼 단위로 오류건수 및 오류율을 확인할 수 있습니다. ‘상세보기’ 기능을 통해 오류추정데이터에 대한 정보도 확인 가능 합니다.

<주제영역별진단결과>


[그림 6-8] 주제영역별진단결과 전체화면
‘주제영역별진단결과’는 진단대상DB에 정의된 주제영역 별 테이블 컬럼 단위로 오류건수 및 오류율을 확인할 수 있으며 주제영역설정은 ‘주제영역관리’ 기능을 이용하여 관리(추가/삭제 등)할 수 있습니다.

4.7 표준메타


[그림 7-1] 표준메타 메뉴
META로 표준이 관리되는 시스템의 경우에 표준메타 기능에 등록되어 있는 용어, 도메인 데이터를 기준으로 앞서 설명한 ‘표준진단’을 수행하게 됩니다.

<표준단어>



[그림 7-2] 표준단어 전체화면
표준메타의 표준단어 전체화면입니다. 표준단어의 등록 및 조회가 가능합니다. ‘신규’(개별 등록), ‘일괄등록’ 기능(엑셀업로드)으로 ‘표준단어관리자’에게 신청할 수 있으며 ‘용어/단어 신청목록’ 에서 조회 가능합니다. 승인완료 되면 등록이 완료됩니다.



[그림 7-3] 표준단어 등록
표준단어 등록은 그림(7-3)과 같이 표준단어기본정보와, 표준단어상세정보를 입력 후 신청을 진행 하면 됩니다. ‘승인’(등록) 된 표준단어의 경우 ‘상세’의 돋보기를 클릭하여 해당 단어에 대한 상세 정보를 확인 및 변경신청할 수 있습니다.
<표준화용어>



[그림 7-4] 표준용어 전체화면
표준메타의 표준용어 전체화면입니다. 표준용어의 등록 및 조회가 가능하며 ‘신규’(개별 등록), ‘일괄등록’ 기능(엑셀업로드)으로 ‘표준용어관리자’에게 신청할 수 있으며 ‘용어/단어 신청목록’에서 조회 가능합니다. 승인완료 되면 등록이 완료됩니다.



[그림 7-5] 표준용어 등록
표준용어 등록은 그림(7-5)과 같이 ‘용어 기본정보’와, ‘용어 자동전환 목록’, ‘용어 상세정보’를 입력 후 신청을 진행하면 됩니다. ‘승인’(등록) 된 표준단어의 경우 ‘상세’의 돋보기를 클릭하여 해당 단어에 대한 상세 정보를 확인 및 변경신청할 수 있습니다.

<용어/단어 신청목록>



[그림 7-6] 용어/단어 신청목록 전체화면
앞선 표준단어, 표준용어를 신청하면 그림(7-6)과 같이 신청상태를 조회할 수 있습니다. 승인상태가 ‘대기’ 및 ‘반려’의 경우 ‘상세보기’의 돋보기를 클릭하면 신청 시 입력한 표준단어, 용어의 정보를 확인할 수 있고, 수정 및 변경신청이 가능합니다.

<표준도메인관리>



[그림 7-7] 표준도메인관리 전체화면
표준도메인이란 용어에서 사용되는 마지막 단어인 분류어의 데이터 타입, 데이터 길이 등 속성의 표준을 정의해 놓은 것입니다. SDQ의 도메인 관리는 도메인그룹을 선택하게 되고 도메인그룹에서 허용하는 데이터 타입만을 도메인으로 생성할 수가 있습니다.



[그림 7-8] 표준도메인관리 도메인그룹목록
전체화면 좌측 ‘도메인그룹목록’ 항목의 ‘관련메뉴’ 버튼을 클릭하면 ‘데이터타입관리’, ‘신규’, ‘삭제’, ‘초기화’, ‘일괄등록’, ‘내려받기’ 와 같이 ‘도메인그룹목록’ 관리 기능들이 있으며 도메인그룹의 ‘상세보기’ 돋보기를 클릭하여 표준도메인그룹의 상세정보를 확인 및 수정할 수 있습니다. 전체화면 우측 ‘도메인그룹목록’의 하위 항목인 ‘도메인목록’의 기능들은 앞서 설명 된 기능들과 마찬가지로 도메인의 ‘신규’, ‘일괄등록’, ‘내려받기’, ‘상세보기’ 등으로 설정 및 관리할 수 있습니다.



5. 마치며

지금까지, 데이터 품질관리 솔루션 SDQ의 주요 기능들을 살펴봤습니다. SDQ는 설치부터 품질진단까지 과정이 간편했고, 품질진단/ 표준메타를 함께 관리할 수 있는 것이 강점으로 보입니다. 또한, 데이터 품질진단에 대한 약간의 지식만 있다면 누구나 쉽게 사용할 수 있을 거라 생각됩니다. DB2, Sybase 등 지원되지 않는 DBMS 및 일부 기능의 부족함이 약간 아쉬워 보이지만, 향후 지원 DBMS 확대, 공통코드관리, 모델관리(ER) 등 새로운 기능을 추가할 계획이라고 하니 아쉬움이 곧 기대로 바뀌는 것 같습니다. 데이터 품질관리의 중요성이 부각되고 있는 만큼 앞으로 더 발전하게 될 SDQ를 기대하며 이만 글을 마치도록 하겠습니다. 감사합니다.



출처 : 한국데이터진흥원

제공 : 데이터 전문가 지식포털 DBguide.net