출처

https://yozm.wishket.com/magazine/detail/1107/

 

양질의 데이터를 판별하는 5가지 방법 : 4 데이터 형식을 파악했는가? | 요즘IT

데이터 구조와 생김새에서 모든 데이터는 차이를 보입니다. 그리고 데이터의 생김새, 즉 데이터 형식에 따라서 분석 가치가 높은 양질의 데이터와 그렇지 못한 저품질의 데이터가 나뉘기도 합

yozm.wishket.com

 

요약

이 아티클은 양질의 데이터인지 확인하는 방법 중 하나로 데이터 형식이 중요하다는 내용을 설명하고 있다.

정형 데이터(표 형태)와 비정형 데이터(이미지, 텍스트 등)를 비교하면서, 데이터의 구조나 형식에 따라 분석 가치가 달라질 수 있다는 점을 강조한다.

 

주요포인트

1. 데이터의 형태가 분석에서 중요하다.

- 데이터는 정형 vs 비정형 데이터로 나눌 수 있다.

- 정형 데이터는 행과 열로 정해진 구조가 있다.

- 비정형 데이터는 구조가 없어 바로 분석하기 어렵다

 

2. 정형 데이터 안에서도 데이터의 척도가 중요하다.

- 정형데이터는 범주형, 수치형 데이터로 구분된다.

- 수치형 데이터는 평균·표준편차 같은 계산이 가능하다

- 범주형 데이터는 연산이 제한적이다.

 

3. 범주형 데이터의 비율을 보면 분성 가능성을 알 수 있다.

- 범주형 데이터가 너무 많으면 분석에 제한이 걸린다.

- 절대 기준이 아닌 참고용으로 활용하는것이 좋다.

 

4. 분석 목적에 따라 양질의 데이터 기준은 달라진다.

- 통계, 머신러닝 분석에는 수치형 정형 데이터가 유리

- AI, 텍스트/이미지 분석에는 비정형 데이터도 훌륭한 데이터가 된다.

 

핵심개념&용어정리

정형데이터: 

행과 열처럼 정해진 구조를 갖는 테이블 형태의 데이터. 표 형태로 보면 이해하기 쉽다.

 

비정형 데이터:

이미지, 영상, 텍스트처럼 구조가 없는 데이터. 통계 분석에 바로 쓰기 어렵다.

 

수치형 데이터:

숫자 그 자체로 의미 있는 값. 평균·합계 같은 연산이 가능하다.

 

범주형 데이터:

분류나 그룹처럼 의미만 있는 데이터. 숫자로 보여도 연산이 제한된다.

 

인사이트

제대로 된 분석과 의도한 분석을 수행하기 위해서는 데이터 자체가 잘 정리되어 있어야 한다는 점을 배울 수 있었다.

+ Recent posts