라벨이 머신러닝인 게시물 표시

(머신러닝-4) 첫번째 모형 - 선형회귀

이미지
본격적인 머신러닝을 수행하기 전에 가장 단순하면서도 파워풀한 모형을 살펴보자. 바로 선형회귀분석 모형이다. 회사에 월별 매출액 및 광고비 데이터가 있다고 가정하자. 데이터를 분석해 보니 결과가 다음과 같다. 년 평균 매출액: 400억 년 평균 광고비: 5억 그런데 갑자기 여러 분에게 사장님이 다음과 같이 물어본다. "OO 과장! 올해 광고비 얼마써야 할까?" 선형회귀분석 (Linear Regression Model)은 위와 같은 질문에 답할 수 있게 데이터를 설명하는 선(Line)을 찾는 모형이다. 데이터를 나타내는 식은 다음과 같다. 여기에서 데이터를 설명하는 선에 대한 식은  Y가 매출액, X가 광고비로 놓으면 매출액 = 300 + 20 * 광고비 와 같은 식을 얻을 수 있다. 저 공식이 바로 데이터를 설명하는 모형이고, 분석가가 만들어야 하는 것이다. 일단 위와 같은 공식을 구했다는 가정에서 조금만 더 깊게 들어가 보자. 광고비 10억을 집행하면 예상 매출액은 500억이다. 그런데 실제 매출액이 600억이라면 100억을 잘못 예측한 것이다. 뭐야? 회귀분석이라고 잘 맞추지도 못하네? 100억이나 잘못 예측했자나? 만약에 우리가 저 회귀식을 몰랐다면 우리의 의사결정은 "평균"으로 할 수 밖에 없다. 년 평균 매출액이 400억이니까 올해도 평균 수준은 되지 않을까요? 라는 식으로 밖에 데이터를 활용하지 못할 것이다. 해당 식을 통해 위의 상황을 정리해 보면 ST = 600억(실제) - 400억(평균) = 200억 SR = 500억(예상) - 400억(평균) = 100억 SE = 600억(실제) - 500억(예상) = 100억 맨앞에 S는 Sum을 의미하므로 단건은 위와 같이 ST,SR,SE로 표현하면 된다. 여기에서 반드시 이해해야 하는 것이 있

(머신러닝-3) 머신러닝 환경 구성

이미지
Data Analytics를 위한 환경으로 먼저 텐서플로우(Tensorflow)를 설치합니다. 텐서플로우는 구글 브레인팀에서 머신 러닝 및 딥러닝 개발을 목적으로 만든 오픈 소스 라이브러리입니다. 텐서플로우는 기본적으로 Python과 C++ 언어로 프로그램을 작성한다. 하지만 SWIG 인터페이스를 통해 JAVA, Ruby 등 다른 언어를 사용하는 것도 가능합니다. 텐서플로우는 다음과 같은 순서로 설치합니다. 1. 아나콘다 설치     프로그램 다운로드 URL:  https://repo.continuum.io/archive/     URL에서 자신의 OS에 맞는 프로그램을 다운로드 받아 설치합니다.     현재 이 글을 작성하고 있는 PC는 Window10 64bit이므로  Anaconda3-4.4.0-Windows-x86_64.exe  프로그램을 설치할 것입니다.          Next 버튼을 누른다.          I Agree 버튼을 누른다.          Next 버튼을 누른다.          설치 경로를 지정하고 Next 버튼을 누른다.          Install 버튼을 누른다.          설치가 진행된다.          Next 버튼을 누른다.         Finish버튼을 눌러 설치를 완료한다.     2. 아나콘다 설치 후, 파이썬 최신 패키지로 업데이트 합니다.     Anaconda Prompt를 실행한다.            먼저 pip 를 업데이트 한다.       conda update pip          이와 같은 방식으로 다음의 명령을 수행한다.      conda update matplotlib 3. 텐서플로우 설치     같은 Anaconda Prompt 창에서 텐서플로우를 설치할 수 있습니다.      pip install tensorflow     를 실행하여