통계학
분포의 중심 위치
Jongmenn
2022. 3. 8. 13:36
반응형
SMALL
분포의 중심위치는 자료의 대표값을 나타내며, 이러한 자료의 중심을 측정하는데 사용되는 수단은 다음과 같음
- 최빈값(mode): 가장 빈번하게 나타나는 값
- 중앙값(median): 자료를 크기순으로 나열(정렬) 했을때 가운데 오는 값을 의미
- 중간값(midpoint): (최대값-최소값)/2 위치에 해당
- 평균(mean): 모든 관측 자료를 더한 후 전체 관측개수(n)로 나눈 값을 의미
이러한 값들은 여러 자료들을 하나의 값으로 대표하는 자료이기 때문에 정보의 손실이 발생할 수 있으며, 따라서
실제 자료와 대표값의 수치 차이를 손실함수(loss function or cost function)으로 표현할 수 있음
최빈값에 대한 loss function
$$ L(g)=\sum_{i}^{n} {y}_{i} \qquad where \quad {y}_{i}=1 \quad if \quad g={x}_{i}, \quad {y}_{i}=0 \quad otherwise $$
중앙값에 대한 loss function
$$ L(g)= max | {x}_{i} - g | $$
중간값에 대한 loss function
$$ L(g)= \sum_{i}^{N} |{x}_{i} - g| / N $$
평균에 대한 loss function
$$ L(g)= \frac{\sum_{i}^{N} ({x}_{i} - g)^2}{N} $$
평균에 대한 손실함수를 이용해서 손실함수를 최소화 하는 지점을 찾는다면 g에 대한 미분이 0이 되는 지점을 찾으면 됨.
$$ \frac{\partial }{\partial g}= \frac{-2}{N} \sum_{i}^{N} ({x}_{i} - g) =0 $$
$$ g=\frac{1}{N} \sum_{i}^{N} {x}_{i} $$
$$ \bar{X}=\frac{1}{N} \sum_{i}^{N} {x}_{i} $$
반응형
LIST