출처
https://yozm.wishket.com/magazine/detail/1107/
양질의 데이터를 판별하는 5가지 방법 : 4 데이터 형식을 파악했는가? | 요즘IT
데이터 구조와 생김새에서 모든 데이터는 차이를 보입니다. 그리고 데이터의 생김새, 즉 데이터 형식에 따라서 분석 가치가 높은 양질의 데이터와 그렇지 못한 저품질의 데이터가 나뉘기도 합
yozm.wishket.com
요약
이 아티클은 양질의 데이터인지 확인하는 방법 중 하나로 데이터 형식이 중요하다는 내용을 설명하고 있다.
정형 데이터(표 형태)와 비정형 데이터(이미지, 텍스트 등)를 비교하면서, 데이터의 구조나 형식에 따라 분석 가치가 달라질 수 있다는 점을 강조한다.
주요포인트
1. 데이터의 형태가 분석에서 중요하다.
- 데이터는 정형 vs 비정형 데이터로 나눌 수 있다.
- 정형 데이터는 행과 열로 정해진 구조가 있다.
- 비정형 데이터는 구조가 없어 바로 분석하기 어렵다
2. 정형 데이터 안에서도 데이터의 척도가 중요하다.
- 정형데이터는 범주형, 수치형 데이터로 구분된다.
- 수치형 데이터는 평균·표준편차 같은 계산이 가능하다
- 범주형 데이터는 연산이 제한적이다.
3. 범주형 데이터의 비율을 보면 분성 가능성을 알 수 있다.
- 범주형 데이터가 너무 많으면 분석에 제한이 걸린다.
- 절대 기준이 아닌 참고용으로 활용하는것이 좋다.
4. 분석 목적에 따라 양질의 데이터 기준은 달라진다.
- 통계, 머신러닝 분석에는 수치형 정형 데이터가 유리
- AI, 텍스트/이미지 분석에는 비정형 데이터도 훌륭한 데이터가 된다.
핵심개념&용어정리
정형데이터:
행과 열처럼 정해진 구조를 갖는 테이블 형태의 데이터. 표 형태로 보면 이해하기 쉽다.
비정형 데이터:
이미지, 영상, 텍스트처럼 구조가 없는 데이터. 통계 분석에 바로 쓰기 어렵다.
수치형 데이터:
숫자 그 자체로 의미 있는 값. 평균·합계 같은 연산이 가능하다.
범주형 데이터:
분류나 그룹처럼 의미만 있는 데이터. 숫자로 보여도 연산이 제한된다.
인사이트
제대로 된 분석과 의도한 분석을 수행하기 위해서는 데이터 자체가 잘 정리되어 있어야 한다는 점을 배울 수 있었다.
'D.직무 분석 > 아티클 스터디' 카테고리의 다른 글
| 양질의 데이터를 판별하는 5가지 방법 5: 목적에 적합한 데이터인가? (0) | 2026.02.03 |
|---|---|
| 양질의 데이터를 판별하는 5가지 방법 3: 관계형 데이터베이스인가? (1) | 2026.01.24 |
| 양질의 데이터를 판별하는 5가지 방법 2: 믿을 수 있는 데이터인가? (0) | 2026.01.20 |
| 양질의 데이터를 판별하는 5가지 방법 1: 데이터 양은 충분한가? (0) | 2026.01.15 |
| 실험 조직으로 거듭나기: 2 검증할 '만'한 가설은? (1) | 2026.01.13 |
