(머신러닝-4) 첫번째 모형 - 선형회귀

이미지
본격적인 머신러닝을 수행하기 전에 가장 단순하면서도 파워풀한 모형을 살펴보자. 바로 선형회귀분석 모형이다. 회사에 월별 매출액 및 광고비 데이터가 있다고 가정하자. 데이터를 분석해 보니 결과가 다음과 같다. 년 평균 매출액: 400억 년 평균 광고비: 5억 그런데 갑자기 여러 분에게 사장님이 다음과 같이 물어본다. "OO 과장! 올해 광고비 얼마써야 할까?" 선형회귀분석 (Linear Regression Model)은 위와 같은 질문에 답할 수 있게 데이터를 설명하는 선(Line)을 찾는 모형이다. 데이터를 나타내는 식은 다음과 같다. 여기에서 데이터를 설명하는 선에 대한 식은  Y가 매출액, X가 광고비로 놓으면 매출액 = 300 + 20 * 광고비 와 같은 식을 얻을 수 있다. 저 공식이 바로 데이터를 설명하는 모형이고, 분석가가 만들어야 하는 것이다. 일단 위와 같은 공식을 구했다는 가정에서 조금만 더 깊게 들어가 보자. 광고비 10억을 집행하면 예상 매출액은 500억이다. 그런데 실제 매출액이 600억이라면 100억을 잘못 예측한 것이다. 뭐야? 회귀분석이라고 잘 맞추지도 못하네? 100억이나 잘못 예측했자나? 만약에 우리가 저 회귀식을 몰랐다면 우리의 의사결정은 "평균"으로 할 수 밖에 없다. 년 평균 매출액이 400억이니까 올해도 평균 수준은 되지 않을까요? 라는 식으로 밖에 데이터를 활용하지 못할 것이다. 해당 식을 통해 위의 상황을 정리해 보면 ST = 600억(실제) - 400억(평균) = 200억 SR = 500억(예상) - 400억(평균) = 100억 SE = 600억(실제) - 500억(예상) = 100억 맨앞에 S는 Sum을 의미하므로 단건은 위와 같이 ST,SR,SE로 표현하면 된다. 여기에서 반드시 이해해야 하는 것이 있

남산 이야기

이미지
달빛 궁궐이라는 한국 애니매이션을 보면 서울에 대한 유래가 나타나 있어 재밌다. 한국적인 색채가 많이 포함되어 있어 애니매이션을 보는 내내 이런 작품이 많았으면 좋겠다는 생각이 든다. 미야자키의 '센과 치히로의 행방불명'과 느낌도 비교했고, 이에 견줄만하다는 자부심을 가져도 좋겠다. 2016년도 작품으로 Netflix에서 보았는데 아이들과 한번 쯤은 봐도 좋을 듯하다. 이번 포스팅의 주요 내용은 달빛궁궐이 아니고 남산에 대한 이야기이다. 우리 블로그가 " 남산 아래 개발자들 " 이니까. 남산의 본래 이름은 인경산(仁慶山)이었으나 조선초 태조가 1394년 풍수지리에 의해 도읍지를 개성에서 서울로 옮겨온 뒤에 남쪽에 있는 산이므로 ‘남산’으로 지칭되었고 풍수지리상 안산으로 중요한 산이다. 나라의 평안을 비는 제사를 지내기 위하여 산신령을 모시는 신당을 세워 목멱대왕 산신을 모시고있어 '목멱신사'라고 불리고 이때부터 인경산은 목멱산(木覓山)으로 불렸다. ( 위키피디아 참조) 달빛궁궐 애니매이션에서도 목멱대왕이 남산의 신으로 나온다. 북악산은 백안산으로 불리며 서울을 백악산신과 목멱대왕 두 신이 지키는 것으로 묘사되어 있다. 남산 아래 개발자들과 목멱산방 에 가서 식사를 한 적이 있는데, 비빔밥이 일품이며 분위기가 매우 좋다. 이 때까지만 해도 단지 남산이 옛날에는 목멱산으로 불렸구나 정도로만 알고 있었다. 남산 근처에 둘러볼 곳이 참 많다. 남산골한옥마을, 남산실개천, 남산오르미, 남산식물원 등 이고, 남산 아래 개발자들로서 다같이 한 곳 한 곳 방문해 보는 재미도 있을 것 같다. 포스팅하는 김에 해당 필명의 개발자도 모집한다. 댓글로 지원해 주시면 필자로 모시겠다! 재능기부이며 무료 봉사이다. 원고료 같은 것은 없다. 이해해 주시길... ^^