https://yozm.wishket.com/magazine/detail/1096/

 

양질의 데이터를 판별하는 5가지 방법 : 3 관계형 데이터베이스인가? | 요즘IT

보통 빅데이터의 특성을 이야기할 때 3V라는 단어를 언급하는 경우가 많습니다. Velocity(속도), Volume(양), Variety(다양성)까지 V로 시작하는 3가지 단어의 묶음입니다. 이때 Variety(다양성)이라는 단어

yozm.wishket.com

 

요약

이 아티클은 양질의 데이터를 판별하는 방법 중 세 번째 기준인 관계형 데이터베이스에 대해 설명하고 있다.

데이터가 분석에 적합하고 활용 가치가 높아지기 위해서는 단순히 값의 개수가 많거나 신뢰성이 높은 것뿐만 아니라, 관계형 데이터베이스 형식을 갖추는 것이 중요하다고 말하고 있다.

 

주요포인트

  • 관계형 데이터베이스란?
    행(row)과 열(column)로 구성된 테이블 형태로 데이터를 저장하며, 서로 간의 관계를 맺을 수 있도록 설계된 데이터 형식이다.

  • 왜 중요한가?
    다른 데이터와의 연결이 원활해지고, 데이터 분석을 수행할 때 효율적으로 접근할 수 있다.

  • 관계형 데이터베이스가 되기 위해서 필요한 것은?
    1. 키(Key)가 존재해야 한다.
    2. 키는 유일해야 한다 == 중복된 값이 존재하지 않아야 한다 (유일성).
    3. 키 값은 NULL이면 안 된다. == 키 값이 빠지거나 비어 있으면 안 된다 (무결성).

 

핵심개념 == 용어정리

  • 관계형 데이터베이스 (Relational DataBase, RDB):
    데이터를 테이블 형태로 저장하는 데이터베이스로, 데이터 간의 관계가 명확하게 표현된다.

  • 테이블과 키:
    행과 열로 구성된 데이터 저장 단위인 테이블에서, 각 행을 식별할 수 있도록 해주는 열이 키(Key)이다.

  • 유일성
    같은 키 값이 반복되면 안 된다는 조건이다.

  • 무결성 
    키 값이 빠지거나 비어 있으면 안 된다는 조건으로, NULL 값은 허용되지 않는다.

 

인사이트

이번 아티클을 통해 양질의 데이터는 단순한 데이터의 양이나 신뢰성뿐만 아니라, 데이터의 구성과 형식 또한 중요하다는 점을 알게 되었다. 데이터가 많고 신뢰성이 높더라도, 구조가 명확하게 설계되어 있지 않다면 분석에 어려움이 생길 수 있고 다른 데이터와 결합하는 과정에서도 문제가 발생할 수 있다.

즉, 제대로 된 분석과 의도한 분석을 수행하기 위해서는 데이터 자체가 잘 정리되어 있어야 한다는 점을 배울 수 있었다.

제대로된 분석, 의도하는 분석을 하기 위해선 데이터 자체가 잘 정리되어 있다는 점을 배울수 있었다.

 

+ Recent posts