Beschreibung

Tes pipelines de données sont lents, coûteux ou difficiles à industrialiser ? Je conçois et déploie des architectures Azure/Databricks robustes, prêtes pour la production.

Ce que j'apporte concrètement :

Conception de pipelines ETL/ELT batch et streaming (ADF, Databricks, PySpark)

Architecture Delta Lake (Bronze/Silver/Gold), qualité de données et optimisation des coûts

Industrialisation DataOps : monitoring, partitioning, performance

Expérience sur Palantir Foundry pour les environnements exigeants

Missions récentes : plateforme serverless Azure pour l'ingestion Bloomberg en temps réel (Finance/CORUM), virtualisation de données Denodo multi-sources (Orange Business Services), pipelines ADF pour migration Cloud (CNAS).

Stack : Databricks, Spark/PySpark, Python, SQL, ADF, Synapse, Azure, Kafka, Denodo, Palantir

Disponible pour missions build / migration / optimisation data platform — Paris

Branchenexpertise

Sprachen

Arabisch
Muttersprachlich oder zweisprachig
Englisch
Verhandlungssicher
Französisch
Verhandlungssicher

Arbeitsortpräferenzen

Vor Ort möglich

Paris (bis zu 50 km), Lille (bis zu 10 km)

CORUM
Data Engineer
BANKEN & VERSICHERUNGEN
Januar 2026 - Heute (5 Monate)
Paris, Frankreich
Conception et développement d'une plateforme serverless Azure end-to-end pour l'ingestion, le traitement et l'exposition de données de marché issues de Bloomberg Data License API, couvrant les besoins d'investissement, de valorisation et de suivi de portefeuilles.
Développement d'Azure Functions en Python pour automatiser les flux Bloomberg (DataRequest, HistoryRequest), avec authentification OAuth2 / JWT HS256, polling asynchrone, retry policy et back-off exponentiel sur les requêtes longue durée.
Optimisation de la récupération de données financières volumineuses (CSV, CSV.gz, ZIP) avec lecture en streaming, parsing Python, normalisation des schémas et contrôles qualité : détection des valeurs manquantes, forward-fill sur jours ouvrés et traçabilité complète des statuts REAL / FORWARD_FILLED / FALLBACK.
Automatisation de traitements quantitatifs sur historiques financiers : calculs de rendement, NAV, valorisation et agrégations temporelles en Python, produisant des datasets directement exploitables par les équipes Finance, Risk et Investment.
Ingestion incrémentale des données financières : à l'issue de chaque exécution Bloomberg, les données sont remontées par incréments dans Azure SQL via des pipelines Azure Data Factory (ADF), avec gestion des deltas et orchestration des flux entre environnements.
Alimentation quotidienne d'un SFTP : un pipeline ADF dédié consomme les données stockées dans Azure SQL et génère chaque jour un fichier déposé automatiquement sur le SFTP cible, assurant une livraison fiable et planifiée aux systèmes consommateurs.
Stockage et exposition des données dans Azure Cosmos DB et Azure SQL, avec modélisation des collections, requêtes SQL pour l'interrogation et l'agrégation, et développement de procédures stockées pour encapsuler les traitements métier critiques.
Conteneurisation des Azure Functions avec Docker et déploiement multi-environnements dev / preprod / prod via pipelines CI/CD Azure DevOps en YAML.
Microsoft Azure Bloomberg Python SQL Data Engineer
cnas
Data Engineer
REISEN & TOURISMUS
Juni 2025 - Dezember 2025 (5 Monate)
Guyancourt, Frankreich
Analyse, refonte et sécurisation des flux d’intégration Azure du projet Voyagiste suite à la migration des sources SharePoint vers SFTP (FileZilla), dans un environnement Cloud Azure.

Conception et développement de pipelines Azure Data Factory (ADF) incluant Data Flows pour l’ingestion, la transformation et l’orchestration automatique de fichiers CSV et TXT multi-formats.

Centralisation des données dans Azure Data Lake Storage Gen2 (ADLS) via la mise en place d’une zone d’atterrissage standardisée, garantissant l’homogénéité des schémas.

Implémentation de règles de qualité des données (nettoyage, typage, normalisation, contrôles de cohérence) directement dans les ADF Mapping Data Flows afin d’assurer la fiabilité du Data Lake Azure.

Gestion avancée des erreurs d’ingestion (schémas incohérents, fichiers corrompus, données manquantes) via des mécanismes de logging, alerting et gestion des exceptions dans Azure Data Factory.

Support et maintenance des flux Talend historiques, correction de tickets incidents et analyse d’impacts en coordination avec l’équipe RUN.

Accompagnement de la transition technique Talend vers Azure Data Factory, garantissant la continuité de service et la montée en charge progressive des traitements Azure.

Contribution au High Level Design (HLD/HLDF) de l’architecture d’intégration Azure, en collaboration avec l’Architecte Data, en intégrant les principes de scalabilité, maintenabilité et évolutivité Cloud.
Azure Data Factory DBeaver Talend Azure Databricks Data Engineer
Projet personnel
Data Engineer - LLM
TELEKOMMUNIKATION
Mai 2025 - September 2025 (4 Monate)
Paris, Frankreich
- Collecte, ingestion et préparation de données textuelles issues de Goodreads et Project Gutenberg (titres, auteurs, genres, résumés, évaluations) via des pipelines Python structurés, avec nettoyage HTML, normalisation des champs, encodage UTF-8 et structuration avancée des corpus pour garantir la qualité des données exploitées par les LLMs.

- Génération d'embeddings sémantiques via OpenAI text-embedding-ada-002 pour la représentation vectorielle du sens, du ton et du style des ouvrages, combinée à une indexation à grande échelle avec FAISS pour une recherche sémantique haute performance sur des milliers de documents.

- Conception et implémentation d'une architecture RAG (Retrieval-Augmented Generation) avec LangChain RetrievalQA, permettant à des LLMs de répondre à des requêtes en langage naturel de manière contextuelle, précise et fiable, en s'appuyant sur des bases de connaissances structurées.

- Implémentation d'un système de reranking sémantique et métier, combinant embeddings, métadonnées (SQL : notes, popularité, genres) et contexte utilisateur pour améliorer la pertinence, la diversité et la personnalisation des réponses générées.

- Optimisation du pipeline LLM : chunking adaptatif, ajustement dynamique du contexte, calibration fine des seuils de similarité et versioning des prompts pour équilibrer qualité des réponses et performance à l'échelle.

- Développement d'une application GenAI interactive avec Streamlit, offrant des recommandations personnalisées, une exploration conversationnelle intelligente du catalogue et une interface d'interrogation en langage naturel.

- Mise en place de pratiques LLMOps rigoureuses : versioning des prompts, journalisation des requêtes, évaluation continue de la qualité des réponses via métriques de pertinence, monitoring des performances et amélioration itérative des modèles en production.
Datenbereinigung & Vorverarbeitung LLM Fine-tuning Langchain Data Engineer

Gesamte Berufserfahrung von Toni ansehen

Agatha Frydrych

Backend Java Software Engineer

4.7

(3)

Baptiste Duhen

Fullstack developer

4.6

(4)

Amed Hamou

Senior Lead Developer

(2)

Audrey Champion

Web developer

4.3

(3)

Anmelden, um Profile zu sehen

Analyse, Management des données et Innovation
Université Gustave Eiffel
2022
- Ingestion et transformation de données (ETL / ELT) - Conception de pipelines data batch - Traitements distribués Spark / Databricks - Modélisation analytique (facts, dimensions) - Requêtage et transformations SQL - Data Engineer - Hadoop - Power BI - Scrum - Azure Data Engineering - Databricks - Palantir - Python - SQL

Data Warehousing with Microsoft Azure Synapse Analytics
Coursera
2023
https://www.coursera.org/account/accomplishments/certificate/VY3QJXY9FNM4
Data Engineering with MS Azure Synapse Apache Spark Pools
Coursera
2023
https://www.coursera.org/account/accomplishments/certificate/SF924VX3VKUU

Die Zertifizierungen von Toni sind nur für registrierte Benutzer einsehbar

Data Engineers

Toni Badr

Data Engineer | Azure | Databricks | Palantir

Über Toni

Projekt- und Berufserfahrung

Empfehlungen

Diese Freelancer passen auch zu Ihren Kriterien

Ausbildung und Abschlüsse

Zertifizierungen

Fähigkeiten

Kategorien