Data

SERVERLESS DATA LAKE

Architecture Cloud native pour l'ingestion, le nettoyage et l'analyse de données sans serveur.

Dépôt bientôt disponible

Amazon Web ServicesPythonServerlessSQL

Phase 1

Contexte

Création d'un pipeline d'ingestion moderne pour traiter des fichiers CSV lourds sans gérer d'infrastructure fixe. L'objectif était de maîtriser les concepts de Data Lake et l'approche Event-Driven sur AWS.

Phase 2

Méthodologie d'Apprentissage

1
Déploiement de l'infrastructure via Terraform (S3, Lambda, IAM Roles)
2
Trigger d'événements S3 : exécution automatique d'une fonction Lambda Python au dépôt d'un fichier
3
Nettoyage des données avec Pandas (conversion des dates, suppression des doublons)
4
Conversion du format CSV vers Parquet pour optimiser les requêtes et les coûts de stockage
5
Configuration d'Amazon Athena pour requêter directement les fichiers sur S3 en SQL

Phase 3

Défis Techniques

Optimisation de l'exécution Lambda

Traitement de gros fichiers entraînant des timeouts. Solution : augmentation ciblée de la RAM allouée (qui booste aussi le CPU) et lecture des fichiers par chunks.

Complexité des permissions IAM

La Lambda n'arrivait pas à écrire dans le bucket de destination. Solution : Application stricte du principe de moindre privilège via des policies JSON personnalisées.

Coûts des requêtes analytiques

Requêtes Athena lentes/chères sur CSV. Solution : Passage au format colonnaire Parquet + partitionnement par année/mois.

Phase 4

Résultats

Pipeline 100% automatisé et serverless (zéro coût si aucune donnée ne rentre)
Temps de requête analytique divisé par 4 (via Parquet)
Compréhension approfondie des architectures Data Lake modernes et du pattern Event-Driven
Maîtrise des services Data phares d'AWS (S3, Lambda, Athena)

Explore More