딥러닝

Data Types

Chaebae 2023. 4. 1. 12:26

  1. 데이터란

Data(자료): 데이터 객체(object)와 그들의 속성(attributes)의 집합체

데이터 객체/속성

1.1 속성/속성값/객체

 

속성(Attribute): 객체의 특성 (ex. 사람의 눈 색깔, 온도)

다른 말로는 variable, field characteristic, dimension, feature 가 있다.  

 

속성값(Attribute values): 특정한 객체의 속성에 속한 숫자나 기호들  

 

[특징1] 같은 속성이 다른 속성값으로 표현될 수 있다. ex) 키는 피트나 미터로 표현된다.  

[특징2] 다른 속성들이 같은 값의 세트로 표현될 수 있다. ex) ID와 나이는 둘 다 정수(integer)로 표현된다.

 

속성 측정에서 속성의 특성을 전부 나타내지 못하는 경우가 있다. 가장 대표적인 예시로 Length(길이) 측정이 있다.

Fig 1.1 길이의 측정에서의 특성표현 차이

 

Fig 1.1 을 참고하자면, 길이를 표현하는 데에 있어서 1,2,3,4,5 의 경우는 순서와 덧셈특성(additivity properties)를 보여준다. 하지만 5,7,8,10,15의 경우는 길이의 순서만을 보여준다.

 

객체(Object): 속성들의 집합

다른 말로는 record, point, case, sample, entity, instance 가 있다.   

 

1.2 속성의 종류(Types of Attributes)

대분류 소분류 가능연산 예시 사용범위
Categorical
(=Qualitative)
Nominal distinctness (=,/=) 우편번호, 학번, 성별 최빈값, 엔트로피, contingency correlation, 카이스퀘어 테스트
Ordinal distinctness + order (=,/=,>,<) 광물의 강도, 학년 중앙값, 분위수, rank correlation, 부호검정
Numeric
(=Quantitative)
Interval distinctness + order(=,/=,>,<)
+ meaningful differences (+,-)
날짜, C나F 단위 온도 평균, 표준편차, 피어슨 상관계수, t, F 테스트
Ratio distinctness + order (=,/=,>,<)
+ meaningful differences (+,-)
+ ratios are meaningful (/,*)
절대온도, 길이, 질량, 나이  기하평균, 하모닉평균

Comment!

보통 Ratio랑 Interval의 차이를 묻는데, "0"이 절대적인 0의 의미가 있으면 Ratio, 아니면 Interval이 된다. 쉽게 생각해서 섭씨와 화씨의 0도는 서로 transformation을 하면 0이 아닌 것이다. 

 


Discrete Attribute: 주로 정수로 표현되는, 셀 수 있는 값들

Continuous Attribute: 실수를 속성값으로 하고, 주로 Floating point variable로 표현된다.

Asymmetric Attribute: 두 개의 state가 동등하게 중요한 경우가 아닐 때, 예를 들어 코로나 테스트의 음성보다 양성반응이 더 중요한 경우이다. 

 

근데, 속성을 나누는 것이 그렇게 중요한 것이 아닌게... 실제 데이터들은 노이즈가 많이 껴있고, 비슷비슷해서 속성을 타입별로 나누는 것이 썩 좋지는 않다고 한다.

 

  2. 데이터 특성(Characteristics of Data)

1. Dimensionality(num of attributes)

차원성인데, 보통 한 객체를 이루는 속성들이 많아질 수록 차원이 높아진다. 그리고 그 객체들의 모임인 데이터 또한 고차원으로 된다는 것. 오히려 이 경우 차원의 저주가 일어날 수 있으며, 속성들이 데이터 갯수보다 많은 경우 차원축소 방법들을 고려해야 한다.

 

2. Sparsity

데이터는 마치 구멍이 송송 뚫린 치즈같을수록 좋은 데이터라고 볼 수 있다. 반은 비어있고 반은 차있는 데이터들이 서로 클러스터링을 했을 때 의미를 창출하기가 쉬운 것이다, 이거는 차원성과 비슷하다고 생각하면 되는데, 오히려 너무 많은 정보들로 가득 차 노이즈가 발생하고, 어디서든 의미가 있는 아웃풋을 낼 수 없을 땐 또 차원의 저주가 일어난다고 생각하면 된다.. 뭐지 이 차원의 굴레

 

3. Resolution

저해상도/ 고해상도에 따라 학습도 다르게 한다..같은데 이건 잘 모르겠다.

 

4. Size

데이터의 사이즈가 큰지, 작은지에 따라 다른 분석법을 적용할 수 있을 것이다.

 

  3. 데이터 종류(Types of Datasets)

1. Record

Data Matrix: 우리가 생각하는 엑셀과 같은 형식들이 Record 형식들이다. 위의 그림1은 5X4 매트릭스라고 볼 수 있다.

Document data: Bag of Words 처럼 각각의 단어들을 카운트한 것들

Transaction Data: 데이터의 특별한 경우, 거래내역을 record data로 표현할 수 있다.

 

2. Graph

우리가 생각하는 그래프들이 다 그래프데이터다! 사진의 경우도 그래프로 생각할 수 있는데, RGB의 고유 숫자를 활용하여 (X,Y) 로케이션에 넣는다고 생각하면 그래프라고도 볼 수 있음. 

 

3. Ordered

genomic sequence data, spatio-temporal data와 같은 데이터들을 말한다.

'딥러닝' 카테고리의 다른 글

1과목: 데이터 수집 및 저장 계획  (0) 2023.04.07
[데이터 시각화] 그래프  (0) 2023.04.01
Information(엔트로피, 상호정보량)  (0) 2023.04.01
Similarity(유사도)  (0) 2023.04.01
데이터의 품질 (Data Quality)  (0) 2023.04.01