Le prompt engineering est probablement le sujet le plus sous-estime de la revolution IA. Tout le monde pense savoir ecrire un prompt. Vous tapez une question, le modele repond. Simple, non ? En realite, la difference entre un prompt naif et un prompt professionnel en contexte juridique, c’est la difference entre un outil dangereux et un outil fiable. J’ai passe des centaines d’heures a affiner les prompts de DAIRIA IA, et chacune de ces heures m’a enseigne quelque chose. Voici les lecons les plus importantes — celles que j’ai apprises a la dure.
Lecon numero un : le prompt systeme est votre constitution
Le prompt systeme — cette instruction initiale qui cadre le comportement du modele avant toute interaction avec l’utilisateur — est le fondement de tout. C’est la que vous definissez les regles du jeu. Et en droit, ces regles sont critiques. Mon prompt systeme pour DAIRIA IA fait plusieurs milliers de tokens. Il definit le role du modele (assistant juridique specialise en droit social francais), ses obligations (toujours citer les sources, toujours nuancer, toujours distinguer droit legal et droit conventionnel), ses interdictions (ne jamais inventer une reference, ne jamais donner un conseil definitif sans reserves).
La premiere erreur que j’ai commise a ete de sous-estimer la longueur et la precision necessaires de ce prompt systeme. Au debut, j’avais quelques lignes generiques. Le resultat etait un modele qui se comportait comme un chatbot generique avec un verni juridique. Il a fallu des semaines d’iterations pour arriver a un prompt systeme qui produit systematiquement des reponses a la hauteur des exigences du metier.
Lecon numero deux : la structure tue l’hallucination
L’hallucination — la tendance du modele a inventer des informations — est le cauchemar de tout concepteur d’outil juridique IA. J’ai decouvert que le meilleur antidote, c’est la structure forcee. Au lieu de demander au modele une reponse libre, je lui impose un cadre de reponse rigide : d’abord les textes applicables (avec references exactes), puis l’analyse de ces textes dans le contexte de la question, puis les conclusions, puis les reserves et limites.
Pourquoi ca marche ? Parce que quand le modele doit d’abord citer les textes avant de les analyser, il est force de s’ancrer dans du reel. S’il ne trouve pas de texte pertinent dans le contexte fourni, la structure l’oblige a le signaler plutot qu’a fabriquer une reference. C’est un mecanisme simple mais redoutablement efficace.
J’ai aussi appris a inclure des instructions explicites du type : « Si tu n’es pas certain d’une reference, indique-le clairement. Il vaut mieux une reponse incomplete qu’une reponse fausse. » Claude, en particulier, repond tres bien a ce type d’instruction. Il n’a pas le reflexe de « remplir les blancs » que j’ai observe avec d’autres modeles.
Lecon numero trois : le contexte est roi
Un LLM sans contexte pertinent est comme un avocat sans dossier : il va parler, mais il va dire n’importe quoi. L’architecture RAG (Retrieval-Augmented Generation) — ou l’on va chercher les documents pertinents avant de les injecter dans le contexte du modele — est le coeur technique de DAIRIA IA. Et c’est la que j’ai passe le plus de temps.
La qualite de la reponse depend a 80% de la qualite du contexte fourni. Si vous injectez les bons articles de loi, les bonnes jurisprudences, la bonne convention collective, le modele va produire une analyse pertinente et fiable. Si le contexte est pauvre ou mal cible, meme le meilleur prompt du monde ne sauvera pas la reponse.
Le prompt engineering juridique, ce n’est pas seulement bien formuler la question. C’est s’assurer que le modele a entre les mains tous les elements de droit necessaires pour y repondre correctement.
Lecon numero quatre : testez, testez, testez
Chaque modification de prompt, meme mineure, peut avoir des effets en cascade imprevisibles. Un mot change dans le prompt systeme peut modifier le comportement du modele sur des dizaines de scenarios differents. J’ai appris a mes depens qu’il faut une batterie de tests systematiques a chaque iteration.
J’ai construit un ensemble de questions-tests couvrant les principaux domaines du droit du travail : licenciement, rupture conventionnelle, heures supplementaires, harcelement, discrimination, CDD, interim, conventions collectives. Chaque modification de prompt est validee contre cet ensemble. C’est fastidieux, mais c’est le prix de la fiabilite.
Le prompt engineering comme discipline juridique
Je suis arrive a une conviction qui peut sembler provocante : le prompt engineering juridique est en train de devenir une competence juridique a part entiere. Ce n’est ni du code ni du droit pur. C’est un hybride qui demande de comprendre comment un modele de langage fonctionne ET comment le droit se structure, se raisonne, se nuance.
Les avocats qui maitriseront cette competence auront un avantage considerable. Pas parce qu’ils pourront se passer de connaitre le droit — bien au contraire. Mais parce qu’ils sauront comment mobiliser la puissance de l’IA tout en maintenant la rigueur que le droit exige. C’est une competence rare, et je pense qu’elle deviendra de plus en plus precieuse dans les annees qui viennent.