"On ne peut pas améliorer ce qu'on ne mesure pas." Cette maxime de Peter Drucker s'applique parfaitement à l'IA générative. Trop d'entreprises déploient des systèmes IA sans définir de métriques claires, puis se demandent si leur investissement est rentable. Ce guide vous donne les KPIs essentiels pour piloter un système d'IA générative en production, comprendre ce qui fonctionne, et identifier ce qui doit être amélioré.

Réponse directe

Les 5 KPIs essentiels : (1) Taux de bonnes réponses, (2) TTFT (Time To First Token), (3) Coût par requête, (4) Taux de refus/erreur, (5) Satisfaction utilisateur (CSAT).

Pourquoi mesurer est indispensable

Un système IA en production sans KPIs, c'est comme conduire sans tableau de bord. Vous ne savez pas :

  • Si la qualité des réponses est acceptable ou se dégrade
  • Combien vous coûte réellement chaque interaction
  • Si les utilisateurs sont satisfaits ou abandonnent l'outil
  • Si le système a des problèmes de performance à certains moments
  • Quel est le ROI réel de votre investissement

Pour le dirigeant : les KPIs ne sont pas un luxe technique, ils sont la base pour démontrer la valeur de l'IA à votre comité de direction et justifier les investissements futurs.

Les 5 catégories de KPIs

Nous organisons les métriques en 5 catégories : qualité, performance, coût, risque, et utilisateur.

1. KPIs de qualité

Ces métriques mesurent si l'IA fait bien son travail.

1. Taux de bonnes réponses

Pourcentage de réponses correctes/utiles selon un jeu de test ou un feedback utilisateur.

  • Comment mesurer : évaluation humaine sur échantillon, ou LLM-as-judge
  • Cible typique : >80% pour un assistant, >95% pour du factuel

2. Taux d'hallucination

Fréquence des réponses factuellement incorrectes ou inventées.

  • Comment mesurer : comparaison avec sources de vérité (RAG)
  • Cible typique : <5% pour un usage critique

3. Pertinence du retrieval (RAG)

Le bon document est-il récupéré ? Mesurable par Recall@k, MRR.

KPIs de performance

4. TTFT (Time To First Token)

Temps entre la requête et le premier token de réponse. Critique pour l'UX.

  • Cible : <500ms pour du chat interactif
  • Mesurer le p50, p95, p99

5. Tokens par seconde

Vitesse de génération. Impact direct sur l'expérience utilisateur.

  • Cible : >30 tokens/s pour être fluide à la lecture

6. Disponibilité

Uptime du service. Objectif classique : 99.5%+

KPIs de coût

7. Coût par requête

Coût moyen d'une interaction (API + infra + compute).

Type Coût typique
GPT-4o (1k tokens)~$0.01-0.03
Claude 3.5 Sonnet~$0.01-0.02
LLM local (8B)~$0.001 (après amortissement)

8. Coût par utilisateur/mois

Coût total divisé par nombre d'utilisateurs actifs. Utile pour le business case.

KPIs de risque

9. Taux de refus

Pourcentage de requêtes où le système refuse de répondre (garde-fous).

  • Trop bas : garde-fous insuffisants
  • Trop haut : frustration utilisateur

10. Incidents de sécurité

Prompt injections réussies, fuites de données, comportements inattendus.

KPIs utilisateur

11. CSAT / NPS

Satisfaction déclarée par les utilisateurs (sondages).

12. Taux d'adoption

% d'utilisateurs cibles qui utilisent vraiment le système.

13. Requêtes par utilisateur

Fréquence d'utilisation — indicateur d'utilité perçue.

Tableau de bord type

Voici un exemple de tableau de bord synthétique pour un reporting mensuel :

QualitéBonnes réponses : 82% | Hallucinations : 3%
PerformanceTTFT p95 : 420ms | 45 tokens/s
CoûtEUR 0.02/requête | EUR 15/user/mois
RisqueRefus : 2% | Incidents : 0
Adoption78% actifs | 12 req/user/jour

Comment mettre en place le suivi

  1. Définir les KPIs prioritaires : commencez par 3-5 métriques clés, pas plus
  2. Instrumenter le système : logger les requêtes, réponses, temps, coûts
  3. Créer un jeu de test : 30-50 questions avec réponses attendues pour mesurer la qualité
  4. Automatiser la collecte : scripts quotidiens pour agréger les métriques
  5. Définir les alertes : seuils qui déclenchent une investigation (ex: hallucinations > 5%)
  6. Reporting régulier : tableau de bord hebdomadaire ou mensuel selon la criticité

Erreurs fréquentes

  • Trop de KPIs d'un coup : mieux vaut 5 KPIs suivis rigoureusement que 20 KPIs ignorés
  • Mesurer sans agir : chaque KPI doit être actionnable (si X baisse, on fait Y)
  • Ignorer les métriques utilisateur : un système techniquement parfait mais non adopté est un échec
  • Pas de baseline : mesurez AVANT le déploiement pour pouvoir comparer

KPIs par type de projet

Type de projet KPIs prioritaires
Chatbot support clientTaux résolution, CSAT, temps de réponse, taux escalade
Assistant recherche documentairePertinence retrieval, taux hallucination, temps économisé
Génération de contenuTaux de réécriture, temps de production, coût par contenu
Analyse de donnéesExactitude des chiffres, temps d'analyse, adoption
"Commencez avec 3-5 KPIs. Ajoutez-en quand vous avez prouvé que vous pouvez agir sur les premiers. Un KPI que personne ne regarde est pire qu'inutile — il donne l'illusion du contrôle."

Besoin d'aide pour piloter votre IA ?

Je peux vous aider à définir vos KPIs et mettre en place un tableau de bord.

Réserver un audit gratuit Voir l'offre Gestion de Projet