You're seeing this page as if you were . The main menu is still yours, though. Exit from immersion
Toni BadrTB

Toni Badr

Data Engineer | Azure | Databricks | Palantir

EUR 600/Tag
Paris, FR
8-15 Jahre

Durchschnittliche Reaktionszeit: 1h

Über Toni

Tes pipelines de données sont lents, coûteux ou difficiles à industrialiser ? Je conçois et déploie des architectures Azure/Databricks robustes, prêtes pour la production.
Ce que j'apporte concrètement :

Conception de pipelines ETL/ELT batch et streaming (ADF, Databricks, PySpark)
Architecture Delta Lake (Bronze/Silver/Gold), qualité de données et optimisation des coûts
Industrialisation DataOps : monitoring, partitioning, performance
Expérience sur Palantir Foundry pour les environnements exigeants

Missions récentes : plateforme serverless Azure pour l'ingestion Bloomberg en temps réel (Finance/CORUM), virtualisation de données Denodo multi-sources (Orange Business Services), pipelines ADF pour migration Cloud (CNAS).
Stack : Databricks, Spark/PySpark, Python, SQL, ADF, Synapse, Azure, Kafka, Denodo, Palantir
Disponible pour missions build / migration / optimisation data platform — Paris
  • Arabisch

    Muttersprachlich oder zweisprachig

  • Englisch

    Verhandlungssicher

  • Französisch

    Verhandlungssicher

Vor Ort möglich
Paris (bis zu 50 km), Lille (bis zu 10 km)

Projekt- und Berufserfahrung

  • CORUM
    Data Engineer
    BANKEN & VERSICHERUNGEN
    Januar 2026 - Heute (5 Monate)
    Paris, Frankreich
    Conception et développement d'une plateforme serverless Azure end-to-end pour l'ingestion, le traitement et l'exposition de données de marché issues de Bloomberg Data License API, couvrant les besoins d'investissement, de valorisation et de suivi de portefeuilles.
    Développement d'Azure Functions en Python pour automatiser les flux Bloomberg (DataRequest, HistoryRequest), avec authentification OAuth2 / JWT HS256, polling asynchrone, retry policy et back-off exponentiel sur les requêtes longue durée.
    Optimisation de la récupération de données financières volumineuses (CSV, CSV.gz, ZIP) avec lecture en streaming, parsing Python, normalisation des schémas et contrôles qualité : détection des valeurs manquantes, forward-fill sur jours ouvrés et traçabilité complète des statuts REAL / FORWARD_FILLED / FALLBACK.
    Automatisation de traitements quantitatifs sur historiques financiers : calculs de rendement, NAV, valorisation et agrégations temporelles en Python, produisant des datasets directement exploitables par les équipes Finance, Risk et Investment.
    Ingestion incrémentale des données financières : à l'issue de chaque exécution Bloomberg, les données sont remontées par incréments dans Azure SQL via des pipelines Azure Data Factory (ADF), avec gestion des deltas et orchestration des flux entre environnements.
    Alimentation quotidienne d'un SFTP : un pipeline ADF dédié consomme les données stockées dans Azure SQL et génère chaque jour un fichier déposé automatiquement sur le SFTP cible, assurant une livraison fiable et planifiée aux systèmes consommateurs.
    Stockage et exposition des données dans Azure Cosmos DB et Azure SQL, avec modélisation des collections, requêtes SQL pour l'interrogation et l'agrégation, et développement de procédures stockées pour encapsuler les traitements métier critiques.
    Conteneurisation des Azure Functions avec Docker et déploiement multi-environnements dev / preprod / prod via pipelines CI/CD Azure DevOps en YAML.
    Microsoft Azure Bloomberg Python SQL Data Engineer
  • cnas
    Data Engineer
    REISEN & TOURISMUS
    Juni 2025 - Dezember 2025 (5 Monate)
    Guyancourt, Frankreich
    Analyse, refonte et sécurisation des flux d’intégration Azure du projet Voyagiste suite à la migration des sources SharePoint vers SFTP (FileZilla), dans un environnement Cloud Azure.

    Conception et développement de pipelines Azure Data Factory (ADF) incluant Data Flows pour l’ingestion, la transformation et l’orchestration automatique de fichiers CSV et TXT multi-formats.

    Centralisation des données dans Azure Data Lake Storage Gen2 (ADLS) via la mise en place d’une zone d’atterrissage standardisée, garantissant l’homogénéité des schémas.

    Implémentation de règles de qualité des données (nettoyage, typage, normalisation, contrôles de cohérence) directement dans les ADF Mapping Data Flows afin d’assurer la fiabilité du Data Lake Azure.

    Gestion avancée des erreurs d’ingestion (schémas incohérents, fichiers corrompus, données manquantes) via des mécanismes de logging, alerting et gestion des exceptions dans Azure Data Factory.

    Support et maintenance des flux Talend historiques, correction de tickets incidents et analyse d’impacts en coordination avec l’équipe RUN.

    Accompagnement de la transition technique Talend vers Azure Data Factory, garantissant la continuité de service et la montée en charge progressive des traitements Azure.

    Contribution au High Level Design (HLD/HLDF) de l’architecture d’intégration Azure, en collaboration avec l’Architecte Data, en intégrant les principes de scalabilité, maintenabilité et évolutivité Cloud.
    Azure Data Factory DBeaver Talend Azure Databricks Data Engineer
  • Projet personnel
    Data Engineer - LLM
    TELEKOMMUNIKATION
    Mai 2025 - September 2025 (4 Monate)
    Paris, Frankreich
    - Collecte, ingestion et préparation de données textuelles issues de Goodreads et Project Gutenberg (titres, auteurs, genres, résumés, évaluations) via des pipelines Python structurés, avec nettoyage HTML, normalisation des champs, encodage UTF-8 et structuration avancée des corpus pour garantir la qualité des données exploitées par les LLMs.

    - Génération d'embeddings sémantiques via OpenAI text-embedding-ada-002 pour la représentation vectorielle du sens, du ton et du style des ouvrages, combinée à une indexation à grande échelle avec FAISS pour une recherche sémantique haute performance sur des milliers de documents.

    - Conception et implémentation d'une architecture RAG (Retrieval-Augmented Generation) avec LangChain RetrievalQA, permettant à des LLMs de répondre à des requêtes en langage naturel de manière contextuelle, précise et fiable, en s'appuyant sur des bases de connaissances structurées.

    - Implémentation d'un système de reranking sémantique et métier, combinant embeddings, métadonnées (SQL : notes, popularité, genres) et contexte utilisateur pour améliorer la pertinence, la diversité et la personnalisation des réponses générées.

    - Optimisation du pipeline LLM : chunking adaptatif, ajustement dynamique du contexte, calibration fine des seuils de similarité et versioning des prompts pour équilibrer qualité des réponses et performance à l'échelle.

    - Développement d'une application GenAI interactive avec Streamlit, offrant des recommandations personnalisées, une exploration conversationnelle intelligente du catalogue et une interface d'interrogation en langage naturel.

    - Mise en place de pratiques LLMOps rigoureuses : versioning des prompts, journalisation des requêtes, évaluation continue de la qualité des réponses via métriques de pertinence, monitoring des performances et amélioration itérative des modèles en production.
    Datenbereinigung & Vorverarbeitung LLM Fine-tuning Langchain Data Engineer

Empfehlungen

Diese Freelancer passen auch zu Ihren Kriterien

AgathaA

Agatha Frydrych

Backend Java Software Engineer

4.7

(3)

2

BaptisteB

Baptiste Duhen

Fullstack developer

4.6

(4)

5

AmedA

Amed Hamou

Senior Lead Developer

4

(2)

7

AudreyA

Audrey Champion

Web developer

4.3

(3)

4

Ausbildung und Abschlüsse

  • Analyse, Management des données et Innovation
    Université Gustave Eiffel
    2022
    - Ingestion et transformation de données (ETL / ELT) - Conception de pipelines data batch - Traitements distribués Spark / Databricks - Modélisation analytique (facts, dimensions) - Requêtage et transformations SQL - Data Engineer - Hadoop - Power BI - Scrum - Azure Data Engineering - Databricks - Palantir - Python - SQL

Zertifizierungen

Fähigkeiten

Kategorien