Beschreibung

Lead Data Engineer / Architect spécialisé en solutions Big Data et cloud, avec 13 ans d’expérience. Maîtrise approfondie de Spark, Scala, Delta Lake, Databricks et Azure. Docteur en bases de données cloud et contributeur actif à l’écosystème open source (Spark, Akka, Kafka, Cassandra).

Sprachen

Englisch
Muttersprachlich oder zweisprachig
Französisch
Muttersprachlich oder zweisprachig

Arbeitsortpräferenzen

Vor Ort möglich

Paris (bis zu 50 km)

EDF
Data Engineer Senior/ Data Architecte
ENERGIE
März 2024 - Heute (2 Jahre und 3 Monate)
Nanterre, Frankreich
Projet : Lakehouse - Transformation de la plateforme Data Lake vers une Architecture LakeHouse
Migration des données et des services du cluster Hadoop Horton Works(HDP) vers Trunk Data Platform (TDP).
Refonte des pipelines de données : passage de HDFS vers le stockageobjet S3.
Optimisation et tuning des jobs Spark (Batch et Streaming) dans le cadrede la migration HDP → TDP.
Modernisation des services de chaîne du froid : migration d’Akka vers desapplications conteneurisées sur OpenShift.
Refonte du système de supervision : mise à jour du monitoring et del’alerting.
Substitution de l’ordonnanceur Oozie par Apache Airflow : conception,déploiement et automatisation des DAGs.
Mise en place de pipelines Airflow pour la centralisation et le croisementdes données.
Développement et déploiement d’une chaîne CI/CD dédiée à la gestiondes DAGs Airflow.
Mise en place de Data-Aware Scheduling via les fonctionnalités Inlets etOutlets d’Airflow.
Centralisation des métadonnées et du data lineage avec OpenMetadata.
Création de dashboards d’alerting sur Grafana pour la surveillance desressources.
Mise en place de dashboards de monitoring applicatif avec Kibana etDynatrace.
Support de niveau 3 pour l’équipe MCO (Maintien en Condition Opérationnelle).
Participation active aux cérémonies Agile : SCRUM et SAFe.
Environnement Technique :
Airflow, Kubernetes, OpenShift, OpenMetada,TDP, Spark, Spark Streaming, S3, Kibana, Dynatrace, GitlabCI.
Airflow DBT Kubernetes OpenShift Open Metadata
SNCF / ITNOVEM
Data Engineer Senior
TRANSPORTWESEN
Mai 2021 - März 2024 (2 Jahre und 10 Monate)
Seine-Saint-Denis, France
Projet : Naomi – Traitement des ventes et après-ventes de billets de transport
Mise en place d'une plateforme de traitement des données liées aux ventes et après-ventes de cartes et billets de voyage.
Développement de pipelines de valorisation des données métier à l’aidede Spark sur Databricks.
Ingestion de données dans Azure Synapse (Data Warehouse).
Stockage, fusion (merge) et interrogation des données au format DeltaLake.
Archivage des données dans le Data Lake Azure.
Développement de workflows d’ordonnancement de jobs Spark viaRundeck.
Mise en place d’une chaîne CI/CD pour les déploiements continus et accompagnement jusqu’à la mise en production (MEP).
Supervision et monitoring des applications via Datadog.
Projet : Météo – API météorologique adaptée aux besoins de la SNCF
Participation à la conception d’un projet d’accès aux données météo d’observation et de prévision fournies par Météo France, avec gestion de filtres et de paramètres complexes.
Rédaction du Contrat d’Interface pour la documentation technique et fonctionnelle.
Construction d’une base de données référentielle pour le formatage des données météorologiques au format Ariane (standard ferroviaire).
Conception du modèle de données pour l’application.
Définition et mise en œuvre de la pipeline de traitement des données dans l’environnement Azure.
Environnement technique : Databricks, Azure, Synapse, Delta Lake, Datadog, Rundeck, Scala, Java, Spark, Maven, Jenkins, JIRA, GitLab, Confluence.
Databricks Deltalake Delta Live Tables Spark Scala Cloud Azure
EDF
Data Engineer Senior
ENERGIE
September 2017 - Mai 2021 (3 Jahre und 8 Monate)
Nanterre, Frankreich
Projet : DATALAKE IT – Centralisation des données EDF sur une plateformeBig Data HortonWorks
Mise en place d’un Data Lake sur des clusters Big Data basés sur la distribution HortonWorks.
Conception et développement de workflows d’ingestion en temps réel viades APIs Akka et des topics Kafka.
Traitement des données en temps réel avec Spark Streaming.
Développement d’APIs Akka pour l’exposition sécurisée des données parhabilitation.
Mise en oeuvre de pipelines de valorisation des données avecordonnancement des jobs Spark via Oozie.
Archivage des données dans des fichiers structurés stockés sur HDFS.
Déploiement d’une chaîne CI/CD assurée par l’infogérant pour la mise enproduction (MEP).
Mise en place d’une solution de supervision basée sur Fluentd et ELK : installation et configuration des agents Fluentd, adaptation du code pourl’envoi des logs au collecteur.
Création de dashboards Grafana pour l’analyse des logs et la génération d’alertes en cas d’incidents.
Participation active aux cérémonies Agile (SCRUM et SAFe).
Environnement technique : Scala, Java, Spark (Batch & Streaming), Kafka, Akka, ELK, Fluentd, Oozie, Yarn, HDFS, S3, HBase, Hive, Ansible, SBT,Jenkins, JIRA, GitLab, Confluence, Neo4j.
Akka Apache Kafka Elastic Stack (ELK) Yarn Spark Streaming

Gesamte Berufserfahrung von Sathiya Prabhu ansehen

Sei die erste Person, die Sathiya Prabhu empfiehlt

Teile Deine Erfahrung aus der Zusammenarbeit mit diesem Freelancer.

Agatha Frydrych

Backend Java Software Engineer

4.7

(3)

Baptiste Duhen

Fullstack developer

4.6

(4)

Amed Hamou

Senior Lead Developer

(2)

Audrey Champion

Web developer

4.3

(3)

Anmelden, um Profile zu sehen

Doctorat - System NoSql
CNAM
2016

Contribution à l’optimisation des performances des jointures Spark via une règle Catalyst personnalisée :
Spark
2017
https://github.com/apache/spark/pull/19451
Ajout d’un paramètre d’échelle pour les fonctions floor et ceil
Spark
2021
https://github.com/apache/spark/pull/34729

Die Zertifizierungen von Sathiya Prabhu sind nur für registrierte Benutzer einsehbar

Data Engineers

Cloud Engineers & Architects

Sathiya Prabhu Kumar

Lead Data Engineer / Architect

Über Sathiya Prabhu

Projekt- und Berufserfahrung

Projet : Lakehouse - Transformation de la plateforme Data Lake vers une Architecture LakeHouse

Projet : Naomi – Traitement des ventes et après-ventes de billets de transport

Projet : Météo – API météorologique adaptée aux besoins de la SNCF

Projet : DATALAKE IT – Centralisation des données EDF sur une plateformeBig Data HortonWorks

Empfehlungen

Diese Freelancer passen auch zu Ihren Kriterien

Ausbildung und Abschlüsse

Zertifizierungen

Fähigkeiten

Kategorien