통계학

분포의 중심 위치

Jongmenn 2022. 3. 8. 13:36
반응형
SMALL

 

 

분포의 중심위치는 자료의 대표값을 나타내며, 이러한 자료의 중심을 측정하는데 사용되는 수단은 다음과 같음

  • 최빈값(mode): 가장 빈번하게 나타나는 값
  • 중앙값(median): 자료를 크기순으로 나열(정렬) 했을때 가운데 오는 값을 의미
  • 중간값(midpoint): (최대값-최소값)/2 위치에 해당
  • 평균(mean): 모든 관측 자료를 더한 후 전체 관측개수(n)로 나눈 값을 의미

이러한 값들은 여러 자료들을 하나의 값으로 대표하는 자료이기 때문에 정보의 손실이 발생할 수 있으며, 따라서

실제 자료와 대표값의 수치 차이를 손실함수(loss function or cost function)으로 표현할 수 있음

 

최빈값에 대한 loss function

 

$$ L(g)=\sum_{i}^{n} {y}_{i} \qquad where \quad {y}_{i}=1 \quad if \quad g={x}_{i}, \quad {y}_{i}=0 \quad otherwise $$

 

중앙값에 대한 loss function

 

$$ L(g)= max | {x}_{i} - g | $$

 

중간값에 대한 loss function

 

$$ L(g)= \sum_{i}^{N} |{x}_{i} - g| / N $$

 

평균에 대한 loss function

$$ L(g)=  \frac{\sum_{i}^{N} ({x}_{i} - g)^2}{N} $$

 

평균에 대한 손실함수를 이용해서 손실함수를 최소화 하는 지점을 찾는다면 g에 대한 미분이 0이 되는 지점을 찾으면 됨.

 

$$ \frac{\partial }{\partial g}= \frac{-2}{N} \sum_{i}^{N} ({x}_{i} - g) =0 $$

 

$$ g=\frac{1}{N} \sum_{i}^{N} {x}_{i} $$

 

$$ \bar{X}=\frac{1}{N} \sum_{i}^{N} {x}_{i} $$

반응형
LIST