04
Google Cloud에서 일괄 데이터 파이프라인 빌드하기
04
Google Cloud에서 일괄 데이터 파이프라인 빌드하기
These skills were generated by AI. Do you agree this course teaches these skills?
데이터 파이프라인은 일반적으로 추출-로드(EL), 추출-로드-변환(ELT) 또는 추출-변환-로드(ETL) 패러다임 중 하나에 속합니다. 이 과정에서는 일괄 데이터에 사용해야 할 패러다임과 사용 시기에 대해 설명합니다. 또한 BigQuery, Dataproc에서의 Spark 실행, Cloud Data Fusion의 파이프라인 그래프, Dataflow를 사용한 서버리스 데이터 처리 등 데이터 변환을 위한 Google Cloud의 여러 가지 기술을 다룹니다. Google Cloud에서 Qwiklabs를 사용해 데이터 파이프라인 구성요소를 빌드하는 실무형 실습도 진행합니다.
과정 정보
목표
- 데이터를 로드하는 다양한 방법인 EL, ELT, ETL을 살펴보고 언제 어떤 방식을 사용해야 하는지 알아봅니다.
- Dataproc에서 Hadoop을 실행하고, Cloud Storage를 활용하며, Dataproc 작업을 최적화합니다.
- Dataflow를 사용하여 데이터 처리 파이프라인을 빌드합니다.
- Data Fusion 및 Cloud Composer를 사용해 데이터 파이프라인을 관리합니다.
기본 요건
데이터 모델링 및 ETL(추출, 변형, 로드) 작업 경험
Python 또는 Java와 같은 일반적인 프로그래밍 언어를 사용한 애플리케이션 개발 경험
대상
데이터 처리를 위한 파이프라인 및 아키텍처 설계를 담당하는 개발자
사용할 수 있는 언어
English, español (Latinoamérica), 日本語, français, português (Brasil), italiano, 한국어