본문 바로가기

[Data Engineering]

(26)
[GCP] 3-3. DashBoard 지금까지 GCP를 활용해서 데이터를 가져오고 이를 SQL에서 처리하는 과정까지를 살펴보았다. 하지만 이를 최종결정권자나 사용자에게 설득력있게 다가가기에는 부족함이 있었다. 이제 우리는 우리가 설계한 모델을 가지고 DashBoard를 직접 작성하여 이를 어떻게 적용시킬것인지를 살펴보도록 하겠다. GCP에서는 DashBoard를 제작하는데에 Data-Studio를 사용한다. 이를 어떻게 이용할 지를 알아보고 이전에 작성한 모델을 바탕으로 직접 제작하는 실습을 가져보자. 먼저 데이터 스튜디오로 작업하기 위해서는 데이터스튜디오(https://datastudio.google.com)로 접속해야한다. 아래에 보이는 화면이 데이터스튜디오에 처음 접속하였을 떄의..
[GCP] 3-2. Decision Model 원래 관련 포스팅 기록을 남기는 과정에서 기술적으로 GCP를 다루는 과정을 중점적으로 기록하려했지만, 친구들과 진행하는 주식 관련 프로젝트에 GCP를 이용하기로 하면서, 관련 모델에 대한 설계를 확률적으로 어떻게 하는지 자세히 살펴보려고 한다. 책에서는 의사 결정 규칙이 다음과 같이 나타나있다. DEP_DELAY ≥ 15분 이면 회의를 취소한다. 그렇지 않으면 회의를 진행한다. 위의 규칙에 따라 회의 취소 결정을 위한 분류결과표 ( contingency table / confusion matrix )를 만를어 확인해보자. 도착지연 ( ARR_DELAY ) < 15분 도착 지연 ( ARR_DELAY ) ≥ 15분 회의를 취소하지 않는다. ( DEP_DELAY = 15 ..
[GCP] 3-1. How to make Dataset 머신러닝의 모델을 구체화하기 이전에 데이터셋을 직관적으로 이해하고 이를 자료로 활용하는 것은 매우 중요한 작업이다. 이는 개발자와 데이터과학자, 최종 의사결정자에게까지 두루 설득력있는 근거로 활용할 가치가 충분하다. 이를 위해 사용하는 분석기법이 바로 탐색적 데이터 분석( EDA, Exploratory Data Analysis )이다. 아래에 보이는 표는 책에서 발췌한 대쉬보드와 EDA의 차이를 나타내는 표이다. 이를 보면 EDA의 결과를 dashboard로 나타냈을때 시각적이고 유용한 자료로 활용할 수 있다는 점을 알 수 있다. 책에서는 DashBoard로 모델을 설명하기 위한 디자인을 구성할 때 세가지 측면에서 디자인을 평가해야된다고 말하고 있다. 정확하고 정직하게 데이터를 ..
[GCP] 2-2. Periodic scheduling, flask web application 아래에 보이는 코드는 ingest_flights.py의 전체 코드이다. 2장의 실습에 핵심적인 내용을 포함하고 있으며, 관련 주석으로 부족한 코드 설명을 보완함을 밝힌다. (일일이 코드를 분석,설명해주는 것은 이 포스팅의 목적이 아니다.) 이어서 나오는 사진은 Cloud-Shell에서 ingest_flights.py를 실행시킨 모습이다. #!/usr/bin/env python # Copyright 2016 Google Inc. # # Licensed under the Apache License, Version 2.0 (the "License"); # you may not use this file..
[GCP] 2-1. Fixed Data-set scheduling 비행 도착시간이 15분 지연될 가능성을 알아보려면 모델링을 해야하고, 이를 위해서는 과거의 수많은 항공편에 대한 데이터들이 필요하다. 미 교통 통계국(BTS)에서는 이에 필요한 항공데이터를 충실히 제공하고 있다. 이유는 항공편이 정시에 운행되는지 감시하고, 항공사들이 책무에 충실하게끔 하려는 목적이라고 한다;; 아무튼 미 교통 통계국(https://www.bts.gov/topics/airlines-and-airports/airline-information-download)에서는 미국의 모든 주요 항공사들의 통계자료를 '레이블'로 제공하고 있다. BTS에 수집된 데이터들은 매우 상세하고 신뢰할만 하며 데이터 수집 표준을 작성할 때 모델로서 사용할 만 하다. 항공사들은..
[GCP] 1. Introduction 겨울방학을 맞아 DSC(https://developers.google.com/community/dsc) 활동으로 'GCP를 이용한 데이터 과학' 이란 주제로 스터디를 진행하기로 하였다. 관련 도서로는 'Valliappa Lakshmanan의 Data Science on the Google Cloud Platform'을 선택했다. 이번 포스팅은 GCP를 Data-sciecne에 어떻게 사용하였는지를 살펴보고 스터디한 내용을 개인적으로 정리하는 목적으로 올리게 되었다. " 데이처 분석의 주요 목적은 의사 결정을 돕는 것이다 " 그림 1-2를 보면 이 책에서 확률론적 의사결정에 데이터과학을 어떤 식으로 접목시키려 하는지 알 수 있다. ( 솔직히 하다보면 이렇게..