라벨이 머신러닝인 게시물 표시

(머신러닝-2) Data Analytics란?

이미지
이번 포스팅에서는 Data Analytics가 무엇인지 생각해 보겠습니다. 다음 그림은 Data Lake Reference Architecture 입니다. 호수와 같이 데이터를 한 곳에 모아 놓고 참조하고 싶을때 꺼내쓴다는 개념입니다. 다양한 데이터 소스로 부터 데이터를 취합하고 특징에 맞게 데이터를 처리하고 저장합니다. 그리고나서 Data Analytics 즉 분석작업을 하는 것이지요. 마지막으로 분석 결과를 시각화하는 것까지 데이터 처리의 흐름을 한 눈에 알 수 있는 아키텍처 입니다. Flume, Sqoop, Spark, Storm 등 다양한 기술들이 통합되어 해당 아키텍처가 만들어 집니다. Data Analytics로 가기전에 이러한 기술들 때문에 두손 두발 다들게 되기도 합니다. 이런 기술들을 알아두면 좋겠지만 (차후에 하나씩 다루도록 하겠습니다) Data Analytics에 집중하기 위해 일단 접어둡시다. 일단 전문가에게 맡기고 데이터가 있고 그 데이터를 어떻게 분석해서 어떤 결과를 만들 수 있는지에 집중하면 됩니다. Data Analytics라는 것은 한마디로 모형 을 만드는 것입니다. 데이터를 Input으로 놓고 모형을 만드는 것이죠. 그리고 모형이 Input을 잘 설명하는지 확인해서 다시 모형을 만들고, Input을 바꿔도 보고 (과정반복), 모형이 완성되면 Output이라는 결과를 만들어 낼 수 있습니다. 모형 자체가 Output이기도 합니다. Data Analytics는 모형을 만드는 것 이고 이를 통해 더욱 정교한 판단 을 하는 것이 목표입니다.