금융데이터 분석 기초: 데이터 준비
분석의 첫걸음: 데이터 추출과 전처리
강의 목표:
금융데이터 분석을 위한 데이터 준비 과정을 단계별로 이해한다.
데이터 추출 시 필요한 요건(JOIN KEY, 추출 기간 등)을 파악한다.
추출된 데이터의 정합성을 검증하고, 분석 목적에 맞는 전처리 작업을 수행한다.
오늘은 금융 데이터 분석의 첫 번째 단계인 '데이터 준비' 과정에 대해 상세히 알아보겠습니다.
1. 데이터 추출의 6단계 금융회사의 데이터는 여러 테이블에 나뉘어 보관되어 있습니다. 분석 목적에 맞는 데이터를 올바르게 추출하는 것이 무엇보다 중요합니다.
가용 데이터 확인: 어떤 테이블에 어떤 데이터가 있는지 전체 리스트와 레이아웃을 확인합니다.
필요 테이블 list-up: 분석에 필요한 테이블들을 목록화하고, 테이블 간 연결고리인 JOIN KEY를 파악합니다.
필요 column 정의: 테이블에서 어떤 항목(column)을 추출할지 명확히 정의합니다.
추출 요건 및 기간 정의: 어떤 조건(query)으로, 어떤 기간의 데이터를 추출할지 구체적으로 정의합니다.
데이터 수신 일정 체크: 데이터 추출은 시간이 걸리므로, 담당 부서와 일정을 조율합니다.
데이터 수신 및 정합성 검토: 데이터를 받은 후, 요청한 요건과 일치하는지, 데이터에 오류는 없는지 꼼꼼히 확인합니다.
2. 데이터 정합성 검증과 전처리
추출된 데이터는 바로 분석에 사용할 수 없습니다. 데이터의 신뢰도를 높이기 위한 검증 및 전처리 과정이 필수적입니다.
정합성 검증:
결측값(Missing Value) 확인: 비어 있는 값이 있는지 확인합니다.
이상치(Outlier) 확인: 상식적으로 납득하기 어려운 값이 있는지 확인합니다 (예: 나이가 200세인 고객).
분포 확인: 데이터의 분포가 정상적인지 확인하여 추출 오류를 점검합니다.
전처리(Pre-processing):
분석 대상 선별: 분석 목적에 맞지 않는 데이터(예: 직장인 대출 상품 분석 시 학생 고객)를 제외합니다.
요약 항목 생성: Raw Data를 그대로 사용하는 것이 아니라, 분석에 유용한 형태로 가공하여 새로운 항목을 만듭니다 (예: '총대출 잔액'을 '소득 대비 대출 잔액 비율'로 가공).
3. 데이터 준비의 중요성
데이터 준비는 전체 분석 시간의 80%를 차지한다는 말이 있을 정도로 중요합니다. 이 과정이 부실하면 아무리 좋은 분석 기법을 사용하더라도 신뢰할 수 없는 결과가 나올 수밖에 없습니다.
오늘의 핵심 요약
데이터 준비는 데이터 추출, 정합성 검증, 전처리 과정으로 이루어진다.
데이터 추출 시에는 JOIN KEY와 명확한 요건 정의가 중요하다.
추출된 데이터는 결측값, 이상치 등을 확인하는 정합성 검증을 거쳐야 한다.
분석 목적에 맞게 데이터를 가공하는 전처리 과정이 필수적이다.
토론 주제 "여러분은 고객의 대출 상환 이력을 분석해야 합니다. 이 때, 단순히 '연체 여부'만을 볼 것인지, 아니면 '연체 발생 시점부터의 기간', '연체 금액의 크기' 등 추가적인 요약 항목을 만들 것인지 논의해 봅시다."