본문 바로가기

[Data Engineering]/[Gloud-GCP]

[GCP] 1. Introduction

728x90

< Intro... >

  겨울방학을 맞아 DSC(https://developers.google.com/community/dsc) 활동으로 'GCP를 이용한 데이터 과학' 이란 주제로 스터디를 진행하기로 하였다. 관련 도서로는 'Valliappa Lakshmanan의 Data Science on the Google Cloud Platform'을 선택했다. 이번 포스팅은 GCP를 Data-sciecne에 어떻게 사용하였는지를 살펴보고 스터디한 내용을 개인적으로 정리하는 목적으로 올리게 되었다. 

 

< 이번 스터디북인 GCP를 사용한 데이터 과학 >

 

 

 

" 데이처 분석의 주요 목적은 의사 결정을 돕는 것이다 "

 

 

< 전체 프로젝트 소개 >

< 확률론적 의사결정에 관한 사례 >

  그림 1-2를 보면 이 책에서 확률론적 의사결정에 데이터과학을 어떤 식으로 접목시키려 하는지 알 수 있다.      ( 솔직히 하다보면 이렇게까지 해야하나.. 하는 생각이 들기도 한다;; )

 

  비즈니스맨 A가 매우 중요한 회의참석을 앞두고 문제가 발생했다. 이 회의는 여러가지 비용과 규정을 근거로 15분 전에 입구를 닫아버리는데  A가 탑승한 비행기가 예상 이륙시간이 지났음에도 출발하지 않는 것이다. ( A는 출발 직전의 비행기에 탑승한 상태이고, 파란색으로 표시된 'time now'가 현재 시점이다. ) 공지된 이륙시간에서 시간이 흘러가고 있는데 회의에 참석할지의 여부를 결정해서 주최측에 연락을 해야하는 상황이다. Data-Scientist 였던 A씨는 기존의 항공편 과거데이터를 근거로 의사결정을 내리기로 했다.

 

< 비행시간이 227분이라고 공지했을 때의 확률분포함수 >

  그림 1-4를 보면 시간에 따른 확률밀도함수(PDF)를 데이터를 근거하여 도시해놓았다. 227분으로 표시된 시점은 항공사에서 공지해 놓은 예정 비행시간으로, 227분 이후에 확률밀도가 계속 낮은 값을 유지하는것으로 보아 227분이면 대부분의 비행에서 비행이 완료되었으며 그중 대다수가 그보다 이른 시간에 비행이 완료된 것을 알 수 있다. 227분의 확률을 구하기 위해서는 확률함수 f(x)를 \[\int_{227-\varepsilon }^{227+\varepsilon }f(x)dx\]로 놓고 계산하면 된다.

더보기

<확률 밀도함수의 특성>

1) 항상 양의 값을 가져야 한다.

2) 모든 범위의 PDF 를 합하면 그 값은 1이다. 

 3) 정의된 범위 내에서의 확률은 범위내의 pdf 영역 넓이(적분값)가 된다. 

<.확률밀도함수를 누적분포함수로 변환한 모습 >

그림1-4의 확률밀도함수는 직관적으로 이해하기가 쉽지 않아 보인다. 그림1-5은 이를 조금 더 직관적으로 이해하기 쉽게 누적분포그래프로 변환하여 도시한 모습이다. 확률밀도함수를 적분한 값이 1이므로 CDF의 최대값을 1로 놓고 보면 도착지연시간에 따른 CDF(X)값을 알 수 있다. 위의 그래프에서 CDF(227)=0.8이라고 해 보자. 이 말은 바꿔말하면 80%의 항공편이 227분 이내에 목적지에 도착한다는 말이 된다.

 

 

" 15분 도착 지연 CDF가 70% 미만이면 고객과의 회의를 취소한다 "

 

 

<.구하고자 하는 CDF graph >

  비즈니스맨 A는 " 15분 도착 지연 CDF가 70% 미만이면 고객과의 회의를 취소한다 " 는 기준을 세우고 이에 맞춰 행동하기로 하였다. 따라서 GCP와 통계 및 머신러닝 모델을 이용해 도착 지연의 CDF를 계산할 수 있는 파이프라인을 구축하고 CDF(15)의 값을 구해보도록 하겠다.

 

 

 

"Data Science on the Google Cloud Platform by Valliappa Lakshmanan (O'Reilly). Copyright 2018 Google Inc."

 

728x90

'[Data Engineering] > [Gloud-GCP]' 카테고리의 다른 글

[GCP] 3-3. DashBoard  (0) 2020.02.18
[GCP] 3-2. Decision Model  (0) 2020.02.18
[GCP] 3-1. How to make Dataset  (0) 2020.02.18
[GCP] 2-2. Periodic scheduling, flask web application  (0) 2020.02.18
[GCP] 2-1. Fixed Data-set scheduling  (0) 2020.02.18