티스토리 뷰
엑셀을 활용하여 선형 회귀 분석을 만드는 방법을 살펴봤다.
분산형 차트를 통해 선형 그래프를 그릴 수 있었다.
아래 그림을 보면, y= 0.002x - 0.6 이라는 수식이 보인다.
이것이 선형 회귀 분석에서 가장 필요로 하는 기본 수식이다.
선형 회귀 분석은 새로운 X 값이 주어졌을 때, Y 값을 예측하는 용도로 주로 사용한다.
위 예제는 "노출에 따른 클릭 수"로서
"만약 노출이 1500번 일어났다면, 클릭은 몇번 일어날까?" 같은 질문에 답을 줄 수 있다.
위 수식에서 x 대신 1500을 대입하면 된다.
y = 0.002 x 1500 - 0.6 = 2.4
즉, 1500번 노출이 발생하면 2.4의 클릭이 일어날 것이라고 할 수 있다.
이런 수식을 선형 회귀 분석에서는 어떻게 구할까?
"최소 자승법"이라는 것을 활용한다고 하는데, 그래프와 각 점의 차이(오차)를 제곱해서 구한다고 한다.
여기에서는 용어보다는 활용에 초점을 맞추기로 하자.
회귀 분석을 통해 주어진 점들을 기반으로 이러한 수식을 구하면,
새로운 x 값이 주어질 때, y 값을 예측할 수 있게 되는 것이다.
그런데 수식 아래에 보면 r-제곱값이 나온다.
이 값을 "결정계수"라고 하는데,
수식이 얼마나 x와 y의 관계를 잘 표현하고 있는지 나타내는 기준이라고 보면 된다.
r-제곱은 0과 1사이의 값을 갖는데 관계가 높을 수록 1에 가까운 값을 갖는다.
즉, 0에 가까워질수록, 수식에 데이터 분포를 제대로 표현하지 못하는 것이며,
1에 가까워지면 모든 데이터가 해당 수식에 접근한다는 것을 나타낸다.
"노출에 따른 클릭 수" 예제에서는 r-제곱 값이 0.9876이므로
데이터가 수식을 잘 표현하고 있다는 것을 알 수 있다.
데이터 분석을 활용해 생성된 데이터를 보면 "결정계수", "Y절편", "X1" 값을 확인할 수 있다.
y = 0.002x - 0.6 수식과 함께 보면
X1이 기울기 값을 나타내고, -0.6이 Y절편을 나타내는 것을 알 수 있을 것이다.
데이터 분석으로 요약을 만들어진 정보를 활용하면, 다음과 같은 형태로 노출 값이 주어졌을 때, 클릭을 예측할 수 있을 것이다.
맨 아래 보면 X1, Y절편을 활용해 노출에 따른 클릭 값을 계산한 것을 확인 할 수 있다.
다음에는 선형 회귀 분석의 적합성 여부를 확인할 수 있는 부분에 대해서 정리해 보려고 한다.
'Cloud&BigData > BigData' 카테고리의 다른 글
빅데이터 가치 창출을 위한 데이터과학의 5단계 프로세스 #1 (0) | 2016.10.06 |
---|---|
선형 회귀 분석의 결정계수를 통한 적합성 검증 (1) | 2014.12.29 |
엑셀을 활용한 회귀분석~ (0) | 2014.11.03 |
실시간 처리를 위한 분산 메시징 시스템 카프카(Kafka) (0) | 2014.03.03 |
빅데이터에서 실시간 처리 기술에 대한 정리 (0) | 2013.10.28 |