Index
데이터의 종류와 예시
세상에는 많은 유형의 데이터가 존재하고 때에 따라 의미는 같지만 형태가 변할 수도 있다. 이런 데이터를 분석하기 위해서는 데이터의 성격에 따라 구분하고 각 특성에 대하여 알고 있어야 하는데 데이터는 크게 다음과 같이 분류할 수 있다.
-
양적 데이터 (Quantitative data)
- 연속형 (Continuous) - 키 , 나이 , 수입과 같은 연산 가능한 실수형 데이터
- 이산형 (Discrete) - 책의 페이지 , 동전의 개수와 같은 연산 가능한 정수형 데이터 ( 혹은 단위형 데이터)
-
질적 데이터 (Qualitative data)
- 명목형 (norminal) - 혈액형 , 전공 구분과 같이 연산이 불가하고 순위의 개념이 없는 데이터
- 순서형 (ordinal) - 옷의 사이즈 구분 , 반 등수와 같은 순서 구분이 있는 연산 불가 데이터
※ 때에 따라서는 데이터의 형태가 바뀌는 경우도 있을 수 있다.
ex ) 순서형 데이터를 인코딩하여 이산형 데이터로 다루거나 ,
ex ) 연속형 데이터를 구간 mapping 을 통해 이산형 데이터로 다루는 경우, 등
데이터 유형에 따른 상관 분석 방법
데이터간 선형도 혹은 단조 정도를 알아보기위해 상관 분석을 진행하는데 , 데이터의 유형에 따라 이를 분석하는 방법이 다른다.
연속적인 데이터로 이루어진 두 데이터를 상관 분석하는 방법은 2가지 유형으로 나뉜다.
데이터가 정규성을 띄는 경우 or 띈다고 가정할 수 있을때
:
- 평균, 표준편차와 같은 모수(parameter)를 활용할 수 있으므로 피어슨 상관계수 (Pearson Correlation Coefficient) 를 통해 상관계수를 구한다.
데이터의 수가 적거나 정규성 가정을 할 수 없는 경우
:
- 각 데이터를 크기에 따라 나열하여 순위를 매긴 후 해당 순위 데이터 사이의 피어슨 상관계수를 통해 분석하는 스피어만 상관계수 (Spearman Rank Correlation Coefficient) 를 이용한다.
- 순위 데이터를 통해 계산하므로 질적 데이터 중 순서형 데이터 또한 가변수화하여 적용할 수 있다.
- 스피어만 상관계수와 거의 비슷한 방법으로 켄달의 타우 (Kenddall’s Tau) 방식도 있다.
※ 위의 두 방법 구분을 흔히 모수적 방법(Parametic method)
, 비모수적 방법(Non-Parametic method)
으로 구분하는데 ,
이에 대한 보다 자세한 내용은 모수적 VS 비모수적 접근 에 정리하였다.
독립 변수의 데이터가 네/아니오 와 같은 이진 형태로 되어 있고 종속 변수의 형태가 연속형 데이터일때 , 둘의 상관분석을 위해 다음 2가지 방법을 활용한다.
양류 상관계수 (point-biserial correlation coefficient)
:
- 명목형 이진데이터로 이루어진 독립변수와 양적 종속변수 사이의 상관정도를 알아보기 위해 사용.
- 피어슨의 단순적률상관계수와 동일한 결과를 가짐
양분 상관계수 (biserial correlation coefficient)
:
- 양류 상관계수와 거의 동일하지만 굳이 구분되어 있는 이유는 기존의 독립 데이터가 양적 데이터인 상황에서 연구자의 임의 기준에 의해 이분화 된 데이터를 통해 양적 종속 변수와 상관계수를 구하는 경우를 뜻하기 때문이다.
※ 두 경우 모두 피어슨 단순적률 상관계수의 변형된 형태로 볼 수 있다.
독립 변수와 종속 변수 모두 네/아니오 형식의 명목형 이진 데이터로 이루어져있을때 둘의 상관관계를 알아볼 때는 다음의 방법을 이용한다.
파이 계수 (Phi Coefficient)
:
- 빈번히 사용되는 지표는 아니지만 ,
L
,C
,Lambda
의 지표와 더불어 두 이진 데이터 사이 상관 정도를 나타내는 지표이다. - 두 변수에 대해 다음과 같은 테이블을 구성할 때 , 아래와 같은 식으로 파이 계수를 구한다.
_ | X=0 | X=1 |
---|---|---|
Y=1 | a | b |
Y=0 | c | d |
\[Phi = \frac {ad-bc}{ \sqrt {(a+b)(b+c)(c+d)(d+a)}}\]