본문 바로가기

[Data Engineering]/[Sqoop]

(4)
[Sqoop] Avro File [Avro File]
[Sqoop] Parquet File [Parquet File] Apache Parquet Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem, regardless of the choice of data processing framework, data model or programming language. parquet.apache.org Parquet(파케이)는 빅데이터를 저장하는 방식(파일포멧) 중 하나이다. 빅데이터 에코 시스템에서 유명한데, 데이터를 효율적으로 저장할 수 있다. 그렇다면 Parquet의 장점은 무엇일까? 간단하게 세가지 정도를 꼽아볼 수 있다. 빠르게 읽을 수 있다 압축률이 좋다 특정 언어,프레임워크에 종..
[Sqoop] Warehouse / Target Dir [ Warehouse / Target Dir ] Warehouse Dir 기본적으로, Sqoop 명령어의 결과는 warehouse dir에 저장이 된다. Table이름으로 Sub - Directory가 생성된다. sqoop import \ > --connect jdbc:mysql://localhost:3306/retail_db \ > --username root \ > --password admin123 \ > --table customers \ > --warehouse-dir /user/new-warehouse-dir Target Dir -target-dir라는 명령어를 사용하면 Sqoop의 아웃풋을 다른 곳(Specific)으로 리다이렉트 시킬 수 있으며, Sub-Dir는 생성되지 않는다. sqoop..
[Sqoop] Sqoop-Intro [Apache Sqoop이란 무엇인가] GitHub - apache/sqoop: Mirror of Apache Sqoop Mirror of Apache Sqoop. Contribute to apache/sqoop development by creating an account on GitHub. github.com BigData Ingesion에서 대표적으로 사용하는 툴 중에 Apach sqoop이 있다. 데이터 파이프라인을 만들어보면서 Sqoop을 접할 기회가 꽤 있었는데, 이번에는 Sqoop에 대해 정리하고자 한다. 스쿱은 클라우데라에서 개발했으며, 현재 아파치 오픈소스 프로젝트로 공개되어 있다. 간단하게 핵심만 말하자면, 스쿱(sqoop)은 관계형 데이터베이스와 하둡 에코시스템 간의 데이터 변환을 가..