SERVERLESS DATA LAKE
Architecture Cloud native pour l'ingestion, le nettoyage et l'analyse de données sans serveur.
Contexte
Création d'un pipeline d'ingestion moderne pour traiter des fichiers CSV lourds sans gérer d'infrastructure fixe. L'objectif était de maîtriser les concepts de Data Lake et l'approche Event-Driven sur AWS.
Méthodologie d'Apprentissage
- 1
Déploiement de l'infrastructure via Terraform (S3, Lambda, IAM Roles)
- 2
Trigger d'événements S3 : exécution automatique d'une fonction Lambda Python au dépôt d'un fichier
- 3
Nettoyage des données avec Pandas (conversion des dates, suppression des doublons)
- 4
Conversion du format CSV vers Parquet pour optimiser les requêtes et les coûts de stockage
- 5
Configuration d'Amazon Athena pour requêter directement les fichiers sur S3 en SQL
Défis Techniques
Optimisation de l'exécution Lambda
Traitement de gros fichiers entraînant des timeouts. Solution : augmentation ciblée de la RAM allouée (qui booste aussi le CPU) et lecture des fichiers par chunks.
Complexité des permissions IAM
La Lambda n'arrivait pas à écrire dans le bucket de destination. Solution : Application stricte du principe de moindre privilège via des policies JSON personnalisées.
Coûts des requêtes analytiques
Requêtes Athena lentes/chères sur CSV. Solution : Passage au format colonnaire Parquet + partitionnement par année/mois.
Résultats
Pipeline 100% automatisé et serverless (zéro coût si aucune donnée ne rentre)
Temps de requête analytique divisé par 4 (via Parquet)
Compréhension approfondie des architectures Data Lake modernes et du pattern Event-Driven
Maîtrise des services Data phares d'AWS (S3, Lambda, Athena)
Explore More