https://yozm.wishket.com/magazine/detail/1074/

 

양질의 데이터를 판별하는 5가지 방법 : 2 믿을 수 있는 데이터인가? | 요즘IT

데이터 신뢰성이란 데이터가 얼마나 실제 정보를 똑바로 담고 있는가에 대한 개념으로 이해하면 좋습니다. 데이터 자체에 틀린 정보가 담겨있을 수도 있으며, 확실한 값이 아닌 추정 값을 데이

yozm.wishket.com

 

요약

이 아티클은 데이터 분석에서 ‘양질의 데이터’를 판별하는 방법을 다루고 있다.

첫 번째 기준인 ‘충분한 데이터 양’에 초점을 맞추며, 데이터가 많을수록 분석 결과의 신뢰도가 올라가고 분석 목적에 맞는 양이 다르다는 점을 설명한다. 또한 이러한 단순 많은 데이터가 반드시 양질의 데이터임을 말하지 않고, 분석 목적에 따라 필요한 데이터 양을 판단해야 한다는 점을 강조한다.

 

주요포인트

1. 데이터의 양은 분석 결과의 신뢰성에 큰 영향을 준다.
충분한 데이터가 없으면 통계적으로 결과의 신뢰성이 떨어진다.

 

2. 양질의 데이터는 단순 많은 데이터가 아닌 목적성에 맞는 데이터이다.
많은 데이터가 항상 좋은것은 아니며, 품질 좋은 데이터의 비율이 높아야 한다. 또한  분석 목표에 따라 적정량이 다르다.

 

3. 양질의 데이터 판별법

데이터의 품질을 명확히 정의하는 법은 없다.

다만 분석에 유리한 데이터를 양질의 데이터라 정의할 경우 1. 데이터가 충분히 많음 2. 데이터 자체의 오류가 적다. 3. 관계형데이터베이스 형식을 가짐  4. 수치형데이터 형식을 많이 보유하고 있다. 5. 활용 목적에 적합하다. 가 있다.

 

3. 데이터 양의 필요성은 분석의 방식마다 다르다.
데이터의 양은 절대적인 기준이 없으나 데이터를 분석하는 목적과 방법에 따라 그 정도가 달라진다.
통계 분석은 보통 최소 500개 이상의 데이터, 머신러닝 분야는 변수의 수에 100을 곱한것보다 많은 량을 필요로 한다. 



 

핵심개념

양질의 데이터: 분석 결과의 신뢰성을 높이는 데이터. 목적에 따라 기준이 바뀐다.

모집단: 분석 대상 전체 데이터의 집합

표본: 전체 모집단에서 수집한 일부 데이터

 

용어정리

머신러닝: 컴퓨터가 데이터를 학습해 예측/판단하도록 하는 알고리즘 기반 분석

신뢰도: 분석 결과를 얼마나 객관적이고 일관되게 받아들일 수 있는지에 대한 지표

이 아티클을 통해 얻을수 있는 것.

데이터의 양이 많다는 사실만으로는 양질의 데이터라고 판단할 수 없으며, 같은 데이터라도 분석 목적과 활용 방식에 따라 ‘양질의 데이터’의 기준이 달라질 수 있다는 점을 인식하게 되었다. 결국 데이터의 가치는 양이 아니라, 목적에 얼마나 적합한가에 의해 결정된다는 인사이트를 얻었다.

+ Recent posts