본문 바로가기
Artificial Intelligence/Basic Concept

[Basic Concept] Data Matrix

by Luna Oculta 2023. 8. 26.

학습 분야 : Linear Argebra > Data Matrix

학습 목적 : Data Matrix는 머신러닝에서 기본 형태를 가지므로 배워야 하는 부분

 

1.1 Data Matrix

데이터는 n x d의 형태의 데이터 행렬로 표현될 수 있다. 

기본적인 행렬의 구조

D는 주로 Data를 의미한다. D라는 데이터에 가로 X1부터 Xd까지의 행특성이 존재하고, 세로 x1부터 xn까지 열특성이 존재하면서 하나의 행렬을 이룬다. 

 

Basic Row

각각의 행은 위의 수식으로 구성되어 있다. 여기서 i는 몇번째인지를 나타내주는 숫자이다.

 

Basic Columns

반대로 각각의 열은 행과 반대로 나타내어 진다.

 

행(Row) 특성은 주로 entities, instances, examples, records, trasactions, objects, points, feature-vectors, tuples과 같이 다양한 형태로 불린다. 마찬가지로 열(Columns) 특성은 attributes, properties, dimensions, variables, fields와 같이 불리기 때문에 책마다 다르게 표현하더라도 결국 같은 것을 의미한다는 것을 꼭 알아야 한다.

 

n x d 행렬에서 n은 데이터의 크기를 주로 의미하고, d는 데이터의 차원성을 의미한다. 행렬에서 속성이 하나밖에 없을 때는 단변량 행렬이라고 부르고, 반면에 동시에 두가지 속성이 존재하면 이변량 행렬, 그리고 두개 이상의 속성이 존재하면 다변량 행렬이라고 부른다.

 

Iris Dataset

위의 표는 Iris dataset을 보여준다. 150 x 5 행렬을 구성하고 있는데, 총 150개의 데이터를 가지고 있는 다변량 행렬이라고 할 수 있다. 

 

모든 데이터가 데이터 행렬을 띄고 있는 것은 아니다.

예를 들어 더 복잡한 데이터셋DNA 염기서열이나, 텍스트, 시간값, 이미지, 오디오, 비디오와 같이 존재할 수 있다. 이와 같이 복잡한 데이터셋을 분석하기 위해서는 특별한 분석 도구들이 필요하다.

하지만 많은 경우에 행 데이터가 데이터 행렬로 표현하기 어렵다 하더라도 특성 추출(Feature Extraction)을 통하여 데이터 행렬로 변환시키기도 한다. 예를 들어 이미지 데이터베이스가 주어졌다면, 우리는 해당 행이 어떤 이미지를 표현하는지, 이에 대응하는 열에 여러 이미지의 색깔, 질감과 같은 특성을 만들 수 있다.