Le pipeline di dati in genere rientrano in uno dei paradigmi EL (Extract, Load), ELT (Extract, Load, Transform) o ETL (Extract, Transform, Load). Questo corso descrive quale paradigma dovrebbe essere utilizzato e quando per i dati in batch. Inoltre, questo corso tratta diverse tecnologie su Google Cloud per la trasformazione dei dati, tra cui BigQuery, l'esecuzione di Spark su Dataproc, i grafici della pipeline in Cloud Data Fusion e trattamento dati serverless con Dataflow. Gli studenti fanno esperienza pratica nella creazione di componenti della pipeline di dati su Google Cloud utilizzando Qwiklabs.
I due componenti chiave di qualsiasi pipeline di dati sono costituiti dai data lake e dai data warehouse. In questo corso evidenzieremo i casi d'uso per ogni tipo di spazio di archiviazione e approfondiremo i dettagli tecnici delle soluzioni di data lake e data warehouse disponibili su Google Cloud. Inoltre, descriveremo il ruolo di un data engineer, illustreremo i vantaggi di una pipeline di dati di successo per le operazioni aziendali ed esamineremo i motivi per cui il data engineering dovrebbe essere eseguito in un ambiente cloud. Questo è il primo corso della serie Data engineering su Google Cloud. Dopo il completamento di questo corso, iscriviti al corso Creazione di pipeline di dati in batch su Google Cloud.