Step 2 Prepare. 준비하기

문제 해결에 필요한 데이터를 결정하고 확보하는 단계

데이터 준비는 해결하려는 문제와 관련된 데이터를 수집하거나 기존 데이터를 활용하는 것을 의미한다. 이 단계에서는 어떤 데이터를 사용할지, 데이터의 출처는 어디인지, 필요한 경우 새로운 데이터를 어떻게 확보할지를 결정하게 된다.


Identify Sources. 데이터 출처 파악하기

필요한 데이터가 어디에서 오는지 확인한다.

내부 시스템인지, 설문조사를 통해 수집된 데이터인지, 공개 데이터인지, 외부 API인지 등 출처를 명확히 기록해야 한다.

 

왜 하나?

출처를 모르는 데이터는 신뢰성을 검증할 수 없고, 재사용하거나 업데이트할 때 혼란이 발생한다.

 

하면 무엇이 좋나?

데이터의 신뢰성을 확보할 수 있고,이후 동일한 데이터를 반복적으로 활용하기 쉬워진다.

 

예시

“내부 CRM 시스템에서 고객 가입 데이터를 가져오고, 외부 통계청에서 인구 데이터를 추가로 수집했다.”


Understand Format & Structure. 데이터 형식과 구조 이해하기

데이터가 파일인지(DB 테이블인지), 각 컬럼이 무엇을 의미하는지, 단위와 기준은 무엇인지 확인한다.

 

왜 하나?

구조를 이해하지 못한 상태에서 분석하면 잘못된 집계나 의미 없는 연산을 수행할 가능성이 높다.

 

하면 무엇이 좋나?

데이터를 어떻게 불러오고 처리해야 할지가 명확해져 이후 Process 단계의 작업 속도가 빨라진다.

 

예시

“고객 데이터는 CSV 파일 형식이며, 한 행은 한 명의 고객, 열은 고객 속성(나이, 성별, 지역, 구매금액)을 나타낸다.”


Assess Data Quality. 데이터 품질 검토하기 (다음에)

결측치, 중복, 이상값, 불일치 여부를 개략적으로 확인한다.

본격적인 정제 작업은 Process 단계에서 수행한다.

 

왜 하나?

데이터 품질을 미리 파악해야 이 데이터가 분석에 적합한지 판단할 수 있기 때문이다.

 

하면 무엇이 좋나?

분석 가능 여부를 초기에 판단할 수 있고, 불필요한 분석 시도를 줄일 수 있다.

 

예시

“고객 데이터 중 15%는 이메일 주소가 비어 있으며, 지역 코드가 중복 입력된 사례가 있다.”


Check Accessibility & Permissions. 데이터 접근성 및 권한 확인하기 (다음에)

데이터 접근 권한이 있는지, 저장 위치와 보안 요건, 개인정보 포함 여부를 확인한다.

 

왜 하나?

권한 문제로 분석이 지연되거나, 보안·법적 문제가 발생할 수 있기 때문이다.

 

하면 무엇이 좋나?

분석이 중단되지 않고, 법적·윤리적 리스크를 사전에 차단할 수 있다.

 

예시

“개인정보 컬럼은 비식별화 후 사용해야 하며, 데이터는 사내 보안 서버에만 저장 가능하다.”

'C. 프로젝트 > 기초 프로젝트' 카테고리의 다른 글

APPASA: Analyze. 분석하기  (0) 2026.01.25
APPASA: Process. 처리하기  (0) 2026.01.25
APPASA: Ask. 질문하기  (0) 2026.01.25
APPASA: 기초 정리  (0) 2026.01.25
기초 프로젝트: 분석 방법론  (1) 2026.01.25

+ Recent posts