05 Traitement des données sans serveur avec Dataflow : développer des pipelines

05

Traitement des données sans serveur avec Dataflow : développer des pipelines

magic_button

Extract Transform Load (ETL)

Data Modelling

Data Processing

ETL

These skills were generated by AI. Do you agree this course teaches these skills?

21 heures Avancé

Dans ce deuxième volet de la série de cours sur Dataflow, nous allons nous intéresser de plus près au développement de pipelines à l'aide du SDK Beam. Nous allons commencer par passer en revue les concepts d'Apache Beam. Nous allons ensuite parler du traitement des données par flux à l'aide de fenêtres, de filigranes et de déclencheurs. Nous passerons ensuite aux options de sources et de récepteurs dans vos pipelines, aux schémas pour présenter vos données structurées, et nous verrons comment effectuer des transformations avec état à l'aide des API State et Timer. Nous aborderons ensuite les bonnes pratiques qui vous aideront à maximiser les performances de vos pipelines. Vers la fin du cours, nous présentons le langage SQL et les DataFrames pour représenter votre logique métier dans Beam, et nous expliquons comment développer des pipelines de manière itérative à l'aide des notebooks Beam.

Gagnez un badge aujourd'hui !

info

Informations sur le cours

Objectifs

Passer en revue les principaux concepts d'Apache Beam abordés dans le cours "Data Engineering on Google Cloud"
Passer en revue les concepts de base du traitement par flux abordés dans le cours "Ingénierie des données" (PCollections illimitées, fenêtres, filigranes et déclencheurs)
Sélectionnez et ajustez les E/S de votre choix pour votre pipeline Dataflow
Utilisez des schémas pour simplifier votre code Beam et améliorer les performances de votre pipeline
Implémenter les bonnes pratiques pour les pipelines Dataflow
Développer un pipeline Beam à l'aide de SQL et de DataFrames

Prérequis

Traitement des données sans serveur avec Dataflow : principes de base

Cible

Ingénieurs de données, analystes de données et data scientists souhaitant développer des compétences en ingénierie des données

Langues disponibles

English, español (Latinoamérica), 日本語, português (Brasil) et français

Google Cloud Skills Boost for Partners

05

Traitement des données sans serveur avec Dataflow : développer des pipelines

05

Traitement des données sans serveur avec Dataflow : développer des pipelines

La puissance des ateliers challenge