Data Types

딥러닝

Data Types

Chaebae 2023. 4. 1. 12:26

1. 데이터란

Data(자료): 데이터 객체(object)와 그들의 속성(attributes)의 집합체

1.1 속성/속성값/객체

속성(Attribute): 객체의 특성 (ex. 사람의 눈 색깔, 온도)

다른 말로는 variable, field characteristic, dimension, feature 가 있다.

속성값(Attribute values): 특정한 객체의 속성에 속한 숫자나 기호들

[특징1] 같은 속성이 다른 속성값으로 표현될 수 있다. ex) 키는 피트나 미터로 표현된다.

[특징2] 다른 속성들이 같은 값의 세트로 표현될 수 있다. ex) ID와 나이는 둘 다 정수(integer)로 표현된다.

속성 측정에서 속성의 특성을 전부 나타내지 못하는 경우가 있다. 가장 대표적인 예시로 Length(길이) 측정이 있다.

Fig 1.1 을 참고하자면, 길이를 표현하는 데에 있어서 1,2,3,4,5 의 경우는 순서와 덧셈특성(additivity properties)를 보여준다. 하지만 5,7,8,10,15의 경우는 길이의 순서만을 보여준다.

객체(Object): 속성들의 집합

다른 말로는 record, point, case, sample, entity, instance 가 있다.

1.2 속성의 종류(Types of Attributes)

대분류	소분류	가능연산	예시	사용범위
Categorical (=Qualitative)	Nominal	distinctness (=,/=)	우편번호, 학번, 성별	최빈값, 엔트로피, contingency correlation, 카이스퀘어 테스트
Categorical (=Qualitative)	Ordinal	distinctness + order (=,/=,>,<)	광물의 강도, 학년	중앙값, 분위수, rank correlation, 부호검정
Numeric (=Quantitative)	Interval	distinctness + order(=,/=,>,<) + meaningful differences (+,-)	날짜, C나F 단위 온도	평균, 표준편차, 피어슨 상관계수, t, F 테스트
Numeric (=Quantitative)	Ratio	distinctness + order (=,/=,>,<) + meaningful differences (+,-) + ratios are meaningful (/,*)	절대온도, 길이, 질량, 나이	기하평균, 하모닉평균

Comment!

보통 Ratio랑 Interval의 차이를 묻는데, "0"이 절대적인 0의 의미가 있으면 Ratio, 아니면 Interval이 된다. 쉽게 생각해서 섭씨와 화씨의 0도는 서로 transformation을 하면 0이 아닌 것이다.

Discrete Attribute: 주로 정수로 표현되는, 셀 수 있는 값들

Continuous Attribute: 실수를 속성값으로 하고, 주로 Floating point variable로 표현된다.

Asymmetric Attribute: 두 개의 state가 동등하게 중요한 경우가 아닐 때, 예를 들어 코로나 테스트의 음성보다 양성반응이 더 중요한 경우이다.

근데, 속성을 나누는 것이 그렇게 중요한 것이 아닌게... 실제 데이터들은 노이즈가 많이 껴있고, 비슷비슷해서 속성을 타입별로 나누는 것이 썩 좋지는 않다고 한다.

2. 데이터 특성(Characteristics of Data)

1. Dimensionality(num of attributes)

차원성인데, 보통 한 객체를 이루는 속성들이 많아질 수록 차원이 높아진다. 그리고 그 객체들의 모임인 데이터 또한 고차원으로 된다는 것. 오히려 이 경우 차원의 저주가 일어날 수 있으며, 속성들이 데이터 갯수보다 많은 경우 차원축소 방법들을 고려해야 한다.

2. Sparsity

데이터는 마치 구멍이 송송 뚫린 치즈같을수록 좋은 데이터라고 볼 수 있다. 반은 비어있고 반은 차있는 데이터들이 서로 클러스터링을 했을 때 의미를 창출하기가 쉬운 것이다, 이거는 차원성과 비슷하다고 생각하면 되는데, 오히려 너무 많은 정보들로 가득 차 노이즈가 발생하고, 어디서든 의미가 있는 아웃풋을 낼 수 없을 땐 또 차원의 저주가 일어난다고 생각하면 된다.. 뭐지 이 차원의 굴레

3. Resolution

저해상도/ 고해상도에 따라 학습도 다르게 한다..같은데 이건 잘 모르겠다.

4. Size

데이터의 사이즈가 큰지, 작은지에 따라 다른 분석법을 적용할 수 있을 것이다.

3. 데이터 종류(Types of Datasets)

1. Record

Data Matrix: 우리가 생각하는 엑셀과 같은 형식들이 Record 형식들이다. 위의 그림1은 5X4 매트릭스라고 볼 수 있다.

Document data: Bag of Words 처럼 각각의 단어들을 카운트한 것들

Transaction Data: 데이터의 특별한 경우, 거래내역을 record data로 표현할 수 있다.

2. Graph

우리가 생각하는 그래프들이 다 그래프데이터다! 사진의 경우도 그래프로 생각할 수 있는데, RGB의 고유 숫자를 활용하여 (X,Y) 로케이션에 넣는다고 생각하면 그래프라고도 볼 수 있음.

3. Ordered

genomic sequence data, spatio-temporal data와 같은 데이터들을 말한다.

'딥러닝' 카테고리의 다른 글

1과목: 데이터 수집 및 저장 계획 (0)	2023.04.07
[데이터 시각화] 그래프 (0)	2023.04.01
Information(엔트로피, 상호정보량) (0)	2023.04.01
Similarity(유사도) (0)	2023.04.01
데이터의 품질 (Data Quality) (0)	2023.04.01

현재글Data Types

상관분석, 통계, 2과목, ADsP, 연속형확률분포, 다중회괴분석, 이산형확률분포, 판다스, 상관계수, pandas, 거리공식, 데이터마이닝기초, r, 데이터마이닝, 기초통계, 딥러닝, 기초수학, 선형회귀분석, OLS, 3과목,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

정리하고 보관하기

Data Types

1. 데이터란

1.1 속성/속성값/객체

1.2 속성의 종류(Types of Attributes)

2. 데이터 특성(Characteristics of Data)

1. Dimensionality(num of attributes)

2. Sparsity

3. Resolution

4. Size

3. 데이터 종류(Types of Datasets)

1. Record

2. Graph

3. Ordered

'딥러닝' 카테고리의 다른 글

'딥러닝'의 다른글

티스토리툴바

Data Types

1. 데이터란

1.1 속성/속성값/객체

1.2 속성의 종류(Types of Attributes)

2. 데이터 특성(Characteristics of Data)

1. Dimensionality(num of attributes)

2. Sparsity

3. Resolution

4. Size

3. 데이터 종류(Types of Datasets)

1. Record

2. Graph

3. Ordered

'딥러닝' 카테고리의 다른 글

'딥러닝'의 다른글

관련글

티스토리툴바