https://yozm.wishket.com/magazine/detail/1074/

 

양질의 데이터를 판별하는 5가지 방법 : 2 믿을 수 있는 데이터인가? | 요즘IT

데이터 신뢰성이란 데이터가 얼마나 실제 정보를 똑바로 담고 있는가에 대한 개념으로 이해하면 좋습니다. 데이터 자체에 틀린 정보가 담겨있을 수도 있으며, 확실한 값이 아닌 추정 값을 데이

yozm.wishket.com

 

요약

이 아티클에선 양질의 데이터를 판별하는 방법 중 두번째인 데이터의 신뢰성에 에 대해 이야기하고 있다. 신뢰성 높은 데이터는 분석 결과를 신뢰할수 있게 만든다. 데이터 오류, 결측과 같이 데이터가 전처리 되지 않으면 분석에서의 왜곡이 발생할수 있다. 따라서 데이터를 사용한다면 오류, 결측과 같은 문제를 꼼꼼히 검토해 전처리 하는것이 중요하다.

 

주요포인트

1. 데이터 신뢰성이 중요하다. 많은 데이터가 있다고 해서 양질이라고 단정할 수 없으며, 데이터 자체가 실제 정보를 얼마나 정확히 반영하는가가 핵심이다

 

2. 데이터 오류는 분석 결과를 왜곡한다.

사실과 다른 정보나 거짓된 정보들로 인해 분석 결과가 오염될수 있다.

 

3. 결측 데이터 또한 신뢰성 저하의 요인이다.

수집 과정중 값이 누락될수도 있다. 이때 단순 누락된 값을 삭제하거나 대체하는것은 오히려 분석 결과를 오염시키는 결과를 낳을수도 있다.

 

4. 데이터 가공 정도를 확인하라

원천 데이터는 오류가 적지만 복잡하고, 지나치게 가공된 데이터는 신뢰성을 떨어트릴수 있다. 때문에 최적의 균형을 찾아내는것이 중요하다.

핵심개념

는것이 중요하다.

데이터 신뢰성 (Data Reliability)

데이터가 얼마나 실제 정보와 정확하게 일치하는지를 나타내는 개념. 신뢰성이 낮으면 분석 결과를 그대로 믿을 수 없다.

 

데이터 오류 (Data Error)

실제 정보와 다르게 기록된 데이터. 자동화나 수집 과정의 문제로 발생하며, 분석 결과를 크게 왜곡할 수 있다.

 

결측 데이터 (Missing Data)

데이터 값이 누락된 상태. 수집 혹은 저장 과정에서 생기며, 이를 어떻게 처리하느냐에 따라 분석 결과가 달라질 수 있다.



원천 데이터 (Raw Data)

데이터 수집 후 아무런 가공을 거치지 않은 상태의 데이터. 오류가 적고 신뢰도가 높다고 간주되지만, 실제로는 수집 방식 자체에 오류가 있을 수 있다.

 

가공 데이터 (Processed Data)

데이터 분석 목적에 맞춰 수정·변형·결합된 데이터. 이해하기 쉬운 반면, 과도한 가공은 신뢰성을 떨어뜨릴 수 있다

 

용어정리

  1. 양질의 데이터: 신뢰성, 완전성, 적절한 가공 수준을 갖춘 데이터.
  2. 신뢰성 (Reliability): 데이터가 실제 정보와 얼마나 정확히 일치하는지의 정도.
  3. 데이터 오류: 잘못 입력되거나 사실과 다르게 적재된 데이터.
  4. 결측 데이터: 누락되어 비어 있는 데이터 값.
  5. 원천 데이터: 수집 직후 아무런 가공을 거치지 않은 데이터.
  6. 가공 데이터: 분석 목적을 위해 수정·정제·합치는 등의 처리를 거친 데이터.

 

얻은 인사이트

데이터의 양과 가공 수준도 중요하지만 오류, 결측을 제거하는 전처리 과정이 분석에 큰 영향을 끼친다는 점을 다시금 인식했다. 또한 “이미 정리된 데이터”를 의심없이 사용하는것 보단, 데이터가 만들어진 맥략을 파악하고 확인하는 태도가 중요하다 생각하게 되었다.

+ Recent posts