You're seeing this page as if you were . The main menu is still yours, though. Exit from immersion
Henri BertrandHB

Henri Bertrand

AI Architect | LLMOps | GenAI | Agents | RAG

EUR 750/Tag
Paris, FR
8-15 Jahre

Durchschnittliche Reaktionszeit: 24h

Über Henri

🚀 Architecte Plateformes IA & LLMOps | De l’idée à l’IA réellement opérée

J’aide les entreprises à transformer l’IA générative en service fiable, sécurisé et rentable, capable de fonctionner à grande échelle.
Mon expertise porte sur la conception et l’exploitation de plateformes d’inférence LLM et RAG de production, pensées pour des contextes exigeants : forte volumétrie, SLA stricts, données sensibles et intégration au SI existant.

🌟 Ce que j’apporte

Industrialiser l’IA, pas seulement la démontrer
Passage du PoC à une plateforme opérée : performance d’inférence, haute disponibilité, coûts maîtrisés et exploitabilité réelle.

Des RAG utiles au métier
Moteurs de recherche augmentée fiables, traçables et explicables, adaptés aux usages réglementaires, financiers ou médicaux.

Une approche LLMOps complète
CI/CD des modèles, gouvernance des prompts et datasets, monitoring des dérives, gestion des quotas et optimisation des dépenses.

Des architectures robustes
Infrastructures multi-GPU on-prem ou cloud, Kubernetes/OpenShift, vLLM/Triton, stratégies de scaling et de résilience.

📌 Exemples d’impact

- Plateforme LLM groupe bancaire : >150k utilisateurs, latence maîtrisée, SLA p99, exploitation multi-sites sécurisée.
- Plateforme IA clinique : aide à la décision traçable sur données de santé, conformité et adoption par les praticiens.
- Agents métiers : automatisation de rapports complexes et recherche documentaire à forte valeur ajoutée.

🎯 Ma promesse

Vous livrer une plateforme GenAI de production avec :
-Une architecture solide et scalable
-Une gouvernance opérationnelle
-Une exploitation maîtrisée
-Des coûts pilotés
-Des applications métiers porteuses de valeur
  • Französisch

    Muttersprachlich oder zweisprachig

  • Englisch

    Muttersprachlich oder zweisprachig

  • Deutsch

    Konversationssicher

Vor Ort möglich
Paris (bis zu 50 km)

Projekt- und Berufserfahrung

  • BNPP
    AI Platform Architect & Owner
    BANKEN & VERSICHERUNGEN
    August 2025 - Heute (10 Monate)
    Montreuil, Frankreich
    Architecture & exploitation plateforme IA groupe
    — Conception, déploiement et exploitation de la plateforme d’inférence IA du groupe BNP, fournissant des capacités LLM et ML à l’ensemble des entités (modèles standardisés et custom).
    — Exploitation d’un cluster GPU on-premise multi-sites via HyperShift, hébergeant des clusters OpenShift dédiés IA, HA et redondés inter-sites.
    — Mise en œuvre de clusters OpenShift AI intégrant Kubernetes, SDN, Service Mesh, Operators, Prometheus, Grafana, Alertmanager, Loki, Jaeger, Pipelines, RBAC et Network Policies.

    Scalabilité & performance
    — Dimensionnement de nœuds multi-GPU pour modèles de 7B à 600B paramètres, optimisation MIG, scheduling, NUMA et topologies NVLink.
    — Exploitation sous contraintes industrielles : dizaines de milliers d’utilisateurs concurrents, >150k MAU, SLA stricts, TTFT optimisé, latence p99 < 3s.
    — Stratégies avancées de scaling, batching et priorisation sur clusters mutualisés hors-prod et clusters prod dédiés.

    Serving & workloads critiques
    — Serving de LLM, embeddings et modèles ML financiers (scoring, prévision, détection d’anomalies) sur infrastructures mutualisées et environnements prod isolés et chiffrés.
    — Conception d’isolations fortes réseau, compute, stockage et secrets pour contextes sensibles.

    Stockage & résilience
    — Architecture hybride NAS HA + stockage local partagé pour performance et tolérance aux pannes.
    — Redondance multi-site, PRA, sauvegardes et continuité de service.

    Gouvernance & écosystème
    — Structuration de la gouvernance produit : rôles, comités, cycle de vie des offres, catalogue de services et contractualisation interne.
    — Pilotage fournisseurs et dépendances critiques.
    — Exploitation écosystème Red Hat : OpenShift, OpenShift AI, HyperShift, Quay, ACM, ArgoCD, Pipelines, Service Mesh, Keycloak, ODF.
    — Alignement aux standards groupe sécurité, conformité, observabilité et exploitation.
    OpenShift Kubernetes LLMOps LLMs Gouvernance
  • KPMG (SA)
    Lead Data Scientist - LLM
    BERATUNG & AUDITS
    Oktober 2024 - August 2025 (10 Monate)
    Courbevoie, Frankreich
    Agents LLM / RAG
    — Conception d’agents RAG avancés (ReAct, Multihop, Plan-Search-Respond) pour Risk Management, Audit, MOA et IFRS avec Python, Haystack, LangGraph, DSPy, LiteLLM, Pydantic, Azure OpenAI, Mistral.
    — Mise en production d’un agent de génération de rapports multirisques (climat, géographie, droits humains) via LangChain, Tavily, GPT-4o et Llama 3.1.
    — Stratégies d’indexation multi-niveaux, gestion du contexte périphérique, search hybride (chunk, embeddings, full-text).
    — Indexation d’images et contenus non textuels dans documents (GPT-4o, YOLO, Azure OCR, ColPali).

    Architecture / MLOps
    — Industrialisation CI/CD des projets Data Science : build, tests, packaging, déploiement et monitoring des pipelines ML/LLM.
    — Co-conception du socle IA Azure avec la DSI : Azure ML, AKS, Blob, Functions et Durable Functions.
    — Architectures d’inférence combinant streaming, batch et orchestration événementielle via queues et bus de messages.
    — Pipelines asynchrones distribués (fan-out/fan-in, retry, idempotence, tolérance aux pannes).
    — Déploiement de modèles Azure ML : autoscaling, versioning, blue/green, canary, rollback.
    — Stack d’évaluation SOTA : context relevancy/recall, ATS, nDCG@k avec pipelines dédiées.
    — Mise en place d’agent store, config store et dataset store pour gouvernance.
    — Suivi des coûts LLM par user/use case avec quotas et alerting.

    Lead Data Science
    — Direction technique d’une équipe de 4 Data Scientists.
    — Pilotage backlog DSLP+Scrum dans Azure DevOps (KANBAN, boards par use case).
    — Création d’une codebase IA dédiée suivant best practices Python/DS : uv, pre-commit, Makefile, DevContainer, Ruff.
    — Documentation complète algorithmes, métriques et indexation.
    — Stratégie de tests unitaires, intégration et E2E.
    — Qualité code : pylint, black, isort, bandit, safety, ruff, mypy, coverage intégrés CI/CD.
    — Qualification des use cases avec le program management.
    Tech Lead Data Scientist LLM LLMOps Mise en production Coordination d'équipe
  • STEALTH CLINICAL CONTEXT
    Lead LLMOPs – Platform Architect
    BIOTECHNOLOGIE
    August 2024 - November 2025 (1 Jahr und 3 Monate)
    Paris, Frankreich
    Architecture plateforme IA clinique / GenAI
    — Conception et industrialisation d’une plateforme d’aide à la décision pour patients atteints de maladies rénales chroniques, exploitée en production sous contraintes données de santé (sécurité, souveraineté, conformité).
    — Architecture end-to-end : ingestion, normalisation, pseudonymisation, moteur RAG, stack LLM, couche d’inférence, API métier et interfaces utilisateurs.
    — Moteur RAG médical multi-sources exploitant dossiers patients, biologie et référentiels cliniques (FAISS/Qdrant, embeddings biomédicaux, retrieval hybride, reranking, gestion du contexte longitudinal).
    — Interface clinicien type chat décisionnel avec visualisation du contexte, justification des réponses et feedback (Gradio).
    — Pilotage produit : roadmap, itérations, ateliers utilisateurs et mesure d’impact sur la qualité des décisions.

    LLM Engineering & gouvernance
    — Fine-tuning de Llama-3 8B, Mistral 7B, Qwen sur corpus médical (Transformers, PEFT, QLoRA/LoRA, TRL).
    — Pipelines d’alignement supervisé et RLHF avec human-in-the-loop.
    — Gouvernance complète : versioning datasets/modèles/prompts, métriques, audits et traçabilité des décisions cliniques.
    — Cadre de responsabilité : seuils de confiance, fallback humain, refus contrôlé et traçabilité médico-légale.

    Plateforme d’inférence & exploitation
    — Plateforme bare metal HA basée sur vLLM (multi-model, continuous batching, KV cache, tensor parallel, scheduling GPU) et Infinity pour embeddings à grande échelle.
    — Orchestration Kubernetes des services IA/data : API, vector store, PostgreSQL, monitoring, stockage chiffré MinIO, CI/CD et audit logs.
    — Processus d’exploitation : SLA, supervision technique et métier, gestion d’incidents et continuité de service.
    Platform Architecture RAG LLM Fine-tuning IA Souveraine Bare Metal

Empfehlungen

Youness M.YM
Thomas Moreau BisottiTM
Teddy ToussaintTT
+1
Youness M. und 3 weitere Personen empfehlen Henri

Diese Freelancer passen auch zu Ihren Kriterien

AgathaA

Agatha Frydrych

Backend Java Software Engineer

4.7

(3)

2

BaptisteB

Baptiste Duhen

Fullstack developer

4.6

(4)

5

AmedA

Amed Hamou

Senior Lead Developer

4

(2)

7

AudreyA

Audrey Champion

Web developer

4.3

(3)

4

Ausbildung und Abschlüsse

  • Master 2 Deep Learning Embarquée
    Université de Cergy-Pontoise
    2017
    Master 2 Deep Learning Embarquée

Fähigkeiten

Kategorien