(머신러닝-2) Data Analytics란?

이번 포스팅에서는 Data Analytics가 무엇인지 생각해 보겠습니다.

다음 그림은 Data Lake Reference Architecture 입니다.



호수와 같이 데이터를 한 곳에 모아 놓고



참조하고 싶을때 꺼내쓴다는 개념입니다.

다양한 데이터 소스로 부터 데이터를 취합하고 특징에 맞게 데이터를 처리하고 저장합니다.
그리고나서 Data Analytics 즉 분석작업을 하는 것이지요.
마지막으로 분석 결과를 시각화하는 것까지 데이터 처리의 흐름을 한 눈에 알 수 있는 아키텍처 입니다.

Flume, Sqoop, Spark, Storm 등 다양한 기술들이 통합되어 해당 아키텍처가 만들어 집니다.
Data Analytics로 가기전에 이러한 기술들 때문에 두손 두발 다들게 되기도 합니다.

이런 기술들을 알아두면 좋겠지만 (차후에 하나씩 다루도록 하겠습니다) Data Analytics에 집중하기 위해 일단 접어둡시다.


일단 전문가에게 맡기고 데이터가 있고 그 데이터를 어떻게 분석해서 어떤 결과를 만들 수 있는지에 집중하면 됩니다.

Data Analytics라는 것은 한마디로 모형을 만드는 것입니다.


데이터를 Input으로 놓고 모형을 만드는 것이죠.
그리고 모형이 Input을 잘 설명하는지 확인해서 다시 모형을 만들고, Input을 바꿔도 보고 (과정반복), 모형이 완성되면 Output이라는 결과를 만들어 낼 수 있습니다.
모형 자체가 Output이기도 합니다.

Data Analytics는 모형을 만드는 것이고 이를 통해 더욱 정교한 판단을 하는 것이 목표입니다.

댓글

  1. 설명은 감사한데요.
    결국 DATA ANALYTICS를 우리말로 어떻게 표현할 수 있는 지에 대해서는 설명이 없군요. 그냥 데이터 분석이라고 해서는 안 될 것 같은데요. 맞나요?

    답글삭제
  2. 그냥 우리말로 "데이터 애널리틱스"라고 합니다. 데이터 분석이라고 하기엔 애널리틱스라는 용어가 가지고 있는 모형을 만들고 통계적인 정교한 판단을 하는 것을 나타낼 수 없어서 인것 같아요.
    "데이터의 정량적 분석"이라고 하기엔 기술통계학에 가까운 용어이고요.

    답글삭제

댓글 쓰기

주간 인기글

카드뉴스 마케팅 팁

[ubuntu] 신규 계정에 sudo 권한 추가하기

SPA(Sigle Page Applications) 란 무엇인가?

[AWS] WinSCP 를 이용해 Linux 인스턴스로 파일 전송하기

[MySQL] DB Time Zone 변경