본문 바로가기

분류 전체보기

(152)
[GCP] 4-2. Stream Processing 실시간 streaming에 관한 내용은 추후 gcp 관련 개인 프로젝트를 포스팅 하며 보충하도록 하겠다. - 1 - cd realtime ./run_on_cloud.sh # 파일명이 변경되어 run_oncloud.sh로 실행시킨다 #!/bin/bash if [ "$#" -ne 1 ]; then echo "Usage: ./run_on_cloud.sh bucket-name" exit fi PROJECT=$(gcloud config get-value project) BUCKET=$1 cd chapter4 bq rm flights.streaming_delays # delete existing table mvn compile exec:java \ -Dexec.mainCl..
[GCP] 4-1. ETL Pipeline 3장에 만든 Dash-Board는 부족한 점이 있다. 바로 현재 수행중인 데이터를 반영하지 못하고, 과거의 데이터로만 보여준다는 점이다. 이를 보완하기 위해, 이번장에서는 실시간으로 데이터를 수집하고 이 데이터셋을 데이터베이스로 스트링하는 과정을 실습해 볼 것이다. 먼저 사용할 데이터를 수집하고, 이를 사용할 목적에 맞게 전처리 하는 과정을 거치는데 이를 ETL 파이프라인 단계라고 한다. 이번 장을 공부하면서 느낀점은 데이터 플로우 파이프라인을 구축하는 과정도 과정이고, 실시간으로 데이터를 스트리밍하는 과정도 멋있었지만 무엇보다 관련 데이터를 이토록 세밀하게 분석하고, 발생가능한 오류들을 미리 예상해서 전처리하는 저자의 꼼꼼함에 감탄하지 않을 수 없었다. 마치 관..
[GCP] 3-3. DashBoard 지금까지 GCP를 활용해서 데이터를 가져오고 이를 SQL에서 처리하는 과정까지를 살펴보았다. 하지만 이를 최종결정권자나 사용자에게 설득력있게 다가가기에는 부족함이 있었다. 이제 우리는 우리가 설계한 모델을 가지고 DashBoard를 직접 작성하여 이를 어떻게 적용시킬것인지를 살펴보도록 하겠다. GCP에서는 DashBoard를 제작하는데에 Data-Studio를 사용한다. 이를 어떻게 이용할 지를 알아보고 이전에 작성한 모델을 바탕으로 직접 제작하는 실습을 가져보자. 먼저 데이터 스튜디오로 작업하기 위해서는 데이터스튜디오(https://datastudio.google.com)로 접속해야한다. 아래에 보이는 화면이 데이터스튜디오에 처음 접속하였을 떄의..
[GCP] 3-2. Decision Model 원래 관련 포스팅 기록을 남기는 과정에서 기술적으로 GCP를 다루는 과정을 중점적으로 기록하려했지만, 친구들과 진행하는 주식 관련 프로젝트에 GCP를 이용하기로 하면서, 관련 모델에 대한 설계를 확률적으로 어떻게 하는지 자세히 살펴보려고 한다. 책에서는 의사 결정 규칙이 다음과 같이 나타나있다. DEP_DELAY ≥ 15분 이면 회의를 취소한다. 그렇지 않으면 회의를 진행한다. 위의 규칙에 따라 회의 취소 결정을 위한 분류결과표 ( contingency table / confusion matrix )를 만를어 확인해보자. 도착지연 ( ARR_DELAY ) < 15분 도착 지연 ( ARR_DELAY ) ≥ 15분 회의를 취소하지 않는다. ( DEP_DELAY = 15 ..
[GCP] 3-1. How to make Dataset 머신러닝의 모델을 구체화하기 이전에 데이터셋을 직관적으로 이해하고 이를 자료로 활용하는 것은 매우 중요한 작업이다. 이는 개발자와 데이터과학자, 최종 의사결정자에게까지 두루 설득력있는 근거로 활용할 가치가 충분하다. 이를 위해 사용하는 분석기법이 바로 탐색적 데이터 분석( EDA, Exploratory Data Analysis )이다. 아래에 보이는 표는 책에서 발췌한 대쉬보드와 EDA의 차이를 나타내는 표이다. 이를 보면 EDA의 결과를 dashboard로 나타냈을때 시각적이고 유용한 자료로 활용할 수 있다는 점을 알 수 있다. 책에서는 DashBoard로 모델을 설명하기 위한 디자인을 구성할 때 세가지 측면에서 디자인을 평가해야된다고 말하고 있다. 정확하고 정직하게 데이터를 ..
[GCP] 2-2. Periodic scheduling, flask web application 아래에 보이는 코드는 ingest_flights.py의 전체 코드이다. 2장의 실습에 핵심적인 내용을 포함하고 있으며, 관련 주석으로 부족한 코드 설명을 보완함을 밝힌다. (일일이 코드를 분석,설명해주는 것은 이 포스팅의 목적이 아니다.) 이어서 나오는 사진은 Cloud-Shell에서 ingest_flights.py를 실행시킨 모습이다. #!/usr/bin/env python # Copyright 2016 Google Inc. # # Licensed under the Apache License, Version 2.0 (the "License"); # you may not use this file..
[GCP] 2-1. Fixed Data-set scheduling 비행 도착시간이 15분 지연될 가능성을 알아보려면 모델링을 해야하고, 이를 위해서는 과거의 수많은 항공편에 대한 데이터들이 필요하다. 미 교통 통계국(BTS)에서는 이에 필요한 항공데이터를 충실히 제공하고 있다. 이유는 항공편이 정시에 운행되는지 감시하고, 항공사들이 책무에 충실하게끔 하려는 목적이라고 한다;; 아무튼 미 교통 통계국(https://www.bts.gov/topics/airlines-and-airports/airline-information-download)에서는 미국의 모든 주요 항공사들의 통계자료를 '레이블'로 제공하고 있다. BTS에 수집된 데이터들은 매우 상세하고 신뢰할만 하며 데이터 수집 표준을 작성할 때 모델로서 사용할 만 하다. 항공사들은..
[GCP] 1. Introduction 겨울방학을 맞아 DSC(https://developers.google.com/community/dsc) 활동으로 'GCP를 이용한 데이터 과학' 이란 주제로 스터디를 진행하기로 하였다. 관련 도서로는 'Valliappa Lakshmanan의 Data Science on the Google Cloud Platform'을 선택했다. 이번 포스팅은 GCP를 Data-sciecne에 어떻게 사용하였는지를 살펴보고 스터디한 내용을 개인적으로 정리하는 목적으로 올리게 되었다. " 데이처 분석의 주요 목적은 의사 결정을 돕는 것이다 " 그림 1-2를 보면 이 책에서 확률론적 의사결정에 데이터과학을 어떤 식으로 접목시키려 하는지 알 수 있다. ( 솔직히 하다보면 이렇게..
[Quant] 들어가며... conda 가상환경 만들기. 방학이 되어 인턴쉽도 끝나고 시간이 남아 평소에 관심있던 분야인 퀀트를 한번 재미삼아 시작해 보기로 하였다. 퀀트는 금융상품의 공정가치를 공학적으로 풀어내는 사람을 뜻하기도 한다. - 나무위키 中 - 시작은 conda 가상환경을 만드는 것으로 부터 시작했다. 가상환경의 이름은 quant로 하겠다. 아나콘다3이 설치된 환경에, > conda create --name quant python=3.6 jupyter spyder * 가상환경 삭제 명령어 > conda env remove -n quant 다음은 실행이다. 생성한 quant라는 가상env를 실행하기 위해서는 activate 명령어를, 끝낼 때는 deactivate 명령어를 사용한다. * 가상환경 실행시 > conda activ..
[Laravel] 라라벨 설치 이후, 초기 세팅 ※ Laravel, composer, valet, mysql은 기본적으로 설치되어 있으며, 해당 포스팅은 필자의 기억유지를 위해 가장 기초적인 내용을 기록하기 위함이다. 1. 깃헙에서 클론 or 다운로드 2. phpstorm으로 폴더 열고, > composer update 3. .env file 설정 4. DB Server 실행 > mysql.server start 5. DB연동을 위한 migration file 실행 > php artisan migrate