(머신러닝-4) 첫번째 모형 - 선형회귀
본격적인 머신러닝을 수행하기 전에 가장 단순하면서도 파워풀한 모형을 살펴보자. 바로 선형회귀분석 모형이다. 회사에 월별 매출액 및 광고비 데이터가 있다고 가정하자. 데이터를 분석해 보니 결과가 다음과 같다. 년 평균 매출액: 400억 년 평균 광고비: 5억 그런데 갑자기 여러 분에게 사장님이 다음과 같이 물어본다. "OO 과장! 올해 광고비 얼마써야 할까?" 선형회귀분석 (Linear Regression Model)은 위와 같은 질문에 답할 수 있게 데이터를 설명하는 선(Line)을 찾는 모형이다. 데이터를 나타내는 식은 다음과 같다. 여기에서 데이터를 설명하는 선에 대한 식은 Y가 매출액, X가 광고비로 놓으면 매출액 = 300 + 20 * 광고비 와 같은 식을 얻을 수 있다. 저 공식이 바로 데이터를 설명하는 모형이고, 분석가가 만들어야 하는 것이다. 일단 위와 같은 공식을 구했다는 가정에서 조금만 더 깊게 들어가 보자. 광고비 10억을 집행하면 예상 매출액은 500억이다. 그런데 실제 매출액이 600억이라면 100억을 잘못 예측한 것이다. 뭐야? 회귀분석이라고 잘 맞추지도 못하네? 100억이나 잘못 예측했자나? 만약에 우리가 저 회귀식을 몰랐다면 우리의 의사결정은 "평균"으로 할 수 밖에 없다. 년 평균 매출액이 400억이니까 올해도 평균 수준은 되지 않을까요? 라는 식으로 밖에 데이터를 활용하지 못할 것이다. 해당 식을 통해 위의 상황을 정리해 보면 ST = 600억(실제) - 400억(평균) = 200억 SR = 500억(예상) - 400억(평균) = 100억 SE = 600억(실제) - 500억(예상) = 100억 맨앞에 S는 Sum을 의미하므로 단건은 위와 같이 ST,SR,SE로 표현하면 된다. 여기에서 반드시 이해해야 하는 것이 있