Step 3. Process. 처리하기
분석이 가능하도록 데이터를 정제하고 품질을 확보하는 단계
수집된 데이터에는 오류, 누락, 불일치가 포함될 수 있기 때문에 분석 전에 데이터를 정리(클리닝)하고 일관성을 확보해야 한다. 부정확한 데이터를 수정하거나 제거하는 등 데이터 품질을 높이는 작업을 수행한다.
결측치 처리 = 값이 비어 있는 경우(NaN)
이상치 처리 = 현실적으로 불가능하거나 입력 오류로 보이는 값 (ex: 영화 3000분, TV Show 0 Season)
정제(Cleaning) = 값은 있으나 형식이 제각각인 경우 구조를 통일 (ex: 2026.09.04 ↔ 26년9월4일)
Exploratory Data Analysis, EDA. 탐색적 데이터 분석
데이터를 요약 통계와 시각화를 통해 전반적으로 탐색한다.
변수의 분포, 변수 간 관계, 시간에 따른 변화 추이를 파악하여 인사이트의 단서를 찾는다.
왜 하나?
데이터를 충분하게 이해하지 못하면 잘못된 가설을 세우거나 중요한 패턴을 놓칠 수 있기 때문이다.
하면 무엇이 좋나?
데이터의 특징을 파악하고, 이후 심화 분석의 방향성을 올바르게 설정 가능하기 때문이다
예시
“고객 연령대별 구매 금액 평균을 살펴보니, 20대 후반에서 가장 높은 지출을 보였다.”
Handle Missing Values. 결측치 처리하기
데이터에서 빠진 값을 식별하고, 상황에 맞는 방식으로 처리한다.
단순 삭제, 평균·중앙값 대체, 다른 변수를 활용한 예측값 대체 등의 방법을 사용한다.
왜 하나?
결측치를 그대로 두고 분석하면 통계적 왜곡이 발생할 수 있으며, 머신러닝 모델이 정상적으로 학습되지 않을 수 있다.
하면 무엇이 좋나?
데이터가 안정적으로 정리되어 분석 결과의 신뢰성을 높인다.
예시
“고객 나이 컬럼에서 비어 있는 값은 동일 연령대 평균으로 채웠다.”
Handle Outliers. 이상치 처리하기
다른 데이터와 비교했을 때 지나치게 크거나 작은 비정상적인 값을 탐지하고, 제거하거나 적절히 조정한다.
왜 하나?
이상치는 평균, 분포, 모델 결과를 왜곡시켜 잘못된 결론을 만들 수 있기 때문이다.
하면 무엇이 좋나?
데이터가 현실을 더 잘 반영하게 되고, 분석 결과가 극단값에 휘둘리지 않는다.
예시
“구매 금액이 1억 원으로 기록된 값은 오류로 판단해 제거했다.”
Clean Data. 데이터 정제하기
중복 데이터 제거, 잘못된 입력값 수정, 날짜·숫자·문자 형식 통일 등 데이터를 일관된 형태로 정리한다.
왜 하나?
형식이 제각각이면 분석 도중 오류가 발생하기 쉽고 잘못된 계산이 이루어지기 때문이다.
하면 무엇이 좋나?
분석과 협업이 수월해지고, 데이터 오류를 사전에 예방할 수 있다.
예시
“중복 가입된 고객 ID를 제거하고, 날짜 포맷을 YYYY-MM-DD로 통일했다.”
Transform Data. 데이터 변환하기
분석 목적에 맞게 변수를 변환하거나 새로운 변수를 생성한다.
로그 변환, 범주형 변수 인코딩, 파생 변수 생성 등이 이에 해당한다.
왜 하나?
원본 데이터는 그대로 사용할 경우 분석에 부적합한 경우가 많다. 적절한 변환을 통해 데이터의 패턴이 더 명확하게 드러난다.
하면 뭐가 좋나?
모델의 성능이 향상되고, 분석에서 의미 있는 해석이 가능해진다.
예시
“구매 금액을 로그 변환해 분포를 안정화하고, 고객 연령을 10대/20대/30대 등으로 묶어 새로운 변수로 만들었다.”
Sampling / Resampling. 데이터 샘플링·리샘플링하기 (다음에)
데이터의 크기가 지나치게 크거나 클래스 불균형이 심한 경우, 일부 데이터를 추출하거나 비율을 조정한다.
언더샘플링, 오버샘플링, 시계열 리샘플링(일별 → 주별) 등이 포함된다.
왜 하나?
불균형 데이터는 모델 편향을 유발할 수 있고, 과도하게 큰 데이터는 분석 및 모델링 속도를 저하시킨다.
하면 무엇이 좋나?
분석 속도가 개선되고, 데이터가 균형 잡힌 형태로 정리되어 더 안정적인 결과를 얻을 수 있다.
예시
전체 구매 고객 중 10%를 무작위로 샘플링하여 테스트 분석을 진행하였다.
'C. 프로젝트 > 기초 프로젝트' 카테고리의 다른 글
| APPASA: Share. 공유하기 (0) | 2026.01.25 |
|---|---|
| APPASA: Analyze. 분석하기 (0) | 2026.01.25 |
| APPASA: Prepare. 준비하기 (0) | 2026.01.25 |
| APPASA: Ask. 질문하기 (0) | 2026.01.25 |
| APPASA: 기초 정리 (0) | 2026.01.25 |
