상관계수 2

[R] 상관분석 cov(), cor(), cor.test()

공분산과 상관관계 둘 다 두 변수가 서로 선형적으로 상관관계가 있는지 확인하는 지표로 서로 뗄 수가 없는 사이다. 단, 둘의 차이점으로는, 공분산은 서로의 양, 음의 상관관계를 파악할 수 있지만, 값이 커질수록 상관관계가 커진다고 결론짓기 어려운 반면에, 상관관계는 공분산을 Scaling을 했기 때문에 둘의 상관 정도를 -1과 1사이의 값으로 측정하며, 강도까지 알 수 있게 해주는 지표이다. (앞으로 상관계수라고 언급하는 것은 모두 피어슨 상관계수다.) cov(): covariance matrix iris 데이터를 이용하여 연속형 변수들의 covariance를 구해보면 다음과 같다. > cov(iris[,1:4]) Sepal.Length Sepal.Width Petal.Length Petal.Width ..

카테고리 없음 2023.05.18

Similarity(유사도)

본 포스팅은 유사도를 측정하기 위한 아는 모든 개념을 모았다. 간단하게 유사도 계산, 거리, 상관계수가 나온다! 1. Similarity & Dissimilarity 1.1.1 Similarity measure 두 데이터 객체가 어떻게 같은지에 대한 수치적인 계산이다. 두 데이터 객체가 비슷할 수록 높다. 주로 [0,1] 사이의 값이다. 1.1.2 Dissimilarity measure 두 데이터 객체가 어떻게 다른지에 대한 수치적인 계산이다. 두 데이터 객체가 비슷할수록 낮다 최솟값은 주로 0이다 최대 한계값은 다양함. (inf까지 갈 수 있으니 보통 1이라고 한다.) => Proximity 는 Similarity나 Dissimilarity를 말할 때 통용되게 쓴다. 1.1.3 Measurement 두..

딥러닝 2023.04.01