머신러닝 평균, 분산과 표준편차 Variance, Standard Deviation

머신러닝과 관련된 것중 분산과 표준편차는 값이 얼마나 많이 퍼져 있는지를 알 수 있는 것이다. 수학적으로 분산과 표준편차는 관계가 깊고 분산의 제곱근이 표준편차이다. 머신러닝을 공부함에 있어 분산과 표준편차를 아는 것은 주어진 값의 분포를 찾아내는 것이다.

분산과 표준편차

분산과 표준편차는 값의 분포도를 알 수 있다.

여기서 한가지 연관되는 것은 평균이다.

즉, 평균, 분산, 표준편차란 이 세가지는 항상 연관되어 있다.

개요만 간단히 살펴보자

평균 Mean
표본을 모두 더한 후 표본의 수로 나눈 값
나열된 모든 숫자를 더한 후 나열된 모든 수의 갯수로 나눈 값
변량
표본으로 정의된 값들, 즉 나열된 모든 값들의 하나하나 개별 값
분산 Variance
분산은 편차 제곱의 평균이다.
편차는 표본으로 제시된 값들 하나하나를 평균으로 뺀 값이다.
이 값을 제곱하여 나타낸 값을 모두 더한 후 평균으로 계산한 값이 분산이다.
표준편차 Standard Deviation
분산으로 계산된 값에 루트를 씌워 나온 값이 표준편차이다.

머신러닝에서 분산과 표준편차를 알고 있어야 하는 것은 값이 얼마나 많이 퍼져 있는지를 확인하고 값이 평균에 얼마나 가까운지 판단하는데 활용한다.

평균에 가깝다는 것은 어떤 값의 공통점을 찾는 것이 사용되기 때문일 수 있다.

만약, 표준편차의 값이 낮다면 표본으로 제시된 값들은 평균에 가깝다는 것을 의미하고
표준편차의 값이 높다면 표본으로 제시된 값들은 평균 외 많은 부분에 퍼져 있다는 것을 의미한다.

NumPy 라이브러리

개요는 간략히 살펴보았다.

파이썬에서 분산과 표준편차를 구하는 것은 함수로 간단히 구할 수 있다.

표본으로 제시된 리스트는 평균이나 분산을 구하기 쉬운 값으로 설정하는 것이 이해하기 쉬울 것이다.

파이썬에서 분산과 표준편차를 구하기 위해서는 NumPy 라이브러리를 사용한다.

사용 라이브러리
NumPy
분산 Variance
NumPy.var(표본리스트) 함수사용
표준편차 Standard Deviation
NumPy.std(표본리스트) 함수사용

분산과 표준편차 구하기

분산과 표준편차의 개념을 알았고, 파이썬에서 어떤 라이브러리를 사용하며 어떤 함수를 사용하면 되는지 알았다.

이제 구현을 해 보도록 하자.

아래는 간단하게 구현한 분산과 표준편차를 구하는 것이다.

import numpy

print('--------------------------------------------------')

vVal = [1, 2, 3, 4, 5]

vMean = numpy.mean(vVal)
vVar = numpy.var(vVal)
vStd = numpy.std(vVal)

print("평균 vMean - ", vMean, type(vMean))
print("분산 vVar - ", vVar, type(vVar))
print("표준편차 vStd - ", vStd, type(vStd))

print('--------------------------------------------------')

참고영상

머신러닝에서 수학은 빼놓을 수 없다.

가장 설명이 잘된 영상을 하나 공유한다.

출처는 조조쌤수학 이며, 평균, 분산, 표준편차를 쉽게 설명해 주고 있다.

'programming > AI' 카테고리의 다른 글

머신러닝 오렌지3 코딩없이 기계학습과 데이터마이닝 가능 (0)	2021.08.08
머신러닝 백분위수 구하기 백분율도 알아야 이해가 되더라. (0)	2021.08.06
머신러닝 평균값 중앙값 최빈값 구하기 mean median mode (0)	2021.08.03
파이썬 머신러닝 딥러닝 시작하기 (0)	2021.07.31
머신러닝의 5단계 과정과 딥러닝 (0)	2021.07.30