Triangulation multi-LLM — Scoring GRADE adapté
Le business plan du bar à vin "Terres & Fondues" avance des données de marché qui doivent être validées avant soumission. Pour ce faire, un prompt de recherche identique a été soumis à 3 modèles d'IA disposant de capacités de recherche web approfondie :
| Source | Mode | Format |
|---|---|---|
| ChatGPT | Deep Research | Markdown |
| Gemini | Deep Research | Markdown / DOCX |
| Mistral | Le Chat |
Le prompt est strictement identique entre les 3 LLMs. Cela garantit que les divergences observées proviennent des capacités de recherche et des biais de chaque modèle — pas de différences dans la question posée.
Les 3 rapports sont ensuite analysés selon une méthode de triangulation inspirée des revues systématiques en recherche, adaptée au contexte d'un business plan scolaire.
Chaque modèle d'IA présente des forces et faiblesses spécifiques qui influencent la fiabilité de ses réponses selon le type de donnée recherchée.
| Source | Forces | Faiblesses |
|---|---|---|
| ChatGPT | Données structurées, tendances de marché, citations académiques, rapports sectoriels | Hallucination possible de sources, tendance à affirmer avec certitude même sans preuve forte |
| Gemini | Données locales/géographiques (accès écosystème Google : Maps, Business, avis), tourisme, données régionales | Verbeux, peut noyer les réponses précises dans le volume, parfois redondant |
| Mistral | Contexte français natif, données INSEE/régionales, compréhension fine du tissu économique local | Capacité de recherche web plus limitée, moins de sources internationales |
Les 3 "experts" sont des modèles de langage, pas des analystes humains. Ils partagent potentiellement des données d'entraînement communes, ce qui signifie qu'un accord 3/3 peut refléter une source unique reprise par les 3 modèles, pas 3 confirmations indépendantes. C'est pourquoi la traçabilité des sources primaires est centrale dans cette méthode.
Le business plan contient des affirmations de nature différente. Chaque type de donnée appelle une méthode de validation distincte.
| Type | Description | Exemple | Méthode |
|---|---|---|---|
| A | Fait vérifiable (chiffre précis) | Population Annecy = 131 272 | Consensus numérique + source primaire |
| B | Existence binaire (oui/non) | Le Bock Café existe-t-il ? | Majorité 2/3 minimum |
| C | Statistique sourcée (enquête, étude) | 42% des Français vont moins au resto | Traçabilité de la source originale |
| D | Évaluation qualitative (opinion) | Le positionnement est-il différenciant ? | Synthèse pondérée des arguments |
Pour un chiffre de type A, 3 LLMs qui donnent le même nombre ne constituent qu'une seule confirmation s'ils citent tous la même page INSEE. En revanche, pour une évaluation de type D, 3 analyses convergentes avec des arguments différents constituent une vraie triangulation.
Le système de confiance s'inspire du framework GRADE (Grading of Recommendations, Assessment, Development and Evaluations), standard en recherche médicale pour évaluer la qualité des preuves. Il est adapté ici au contexte d'un business plan.
| Niveau | Visuel | Critères |
|---|---|---|
| Haute | 3/3 concordants + source primaire identifiable + données récentes (<2 ans) | |
| Modérée | 2/3 concordants, ou 3/3 mais sans source primaire vérifiable | |
| Faible | Sources divergentes, ou 1 seule source, ou données >3 ans | |
| Très faible | Aucune source, ou hallucination probable, ou chiffre manifestement inventé |
Facteurs qui dégradent le score :
| Facteur | Impact |
|---|---|
| Source primaire non identifiable | −1 niveau |
| Données de plus de 3 ans | −1 niveau |
| Un seul LLM fournit le chiffre | −1 niveau |
| Suspicion d'hallucination | −2 niveaux |
Facteurs qui améliorent le score :
| Facteur | Impact |
|---|---|
| Source primaire consultable (INSEE, CCI, OT Annecy) | +1 niveau |
| Corroboré par une source non-LLM | +1 niveau |
Contrairement à une pondération fixe (où chaque source aurait toujours le même poids), la pondération varie selon la section analysée. Le principe : chaque LLM est plus fiable dans son domaine de force.
| Section | ChatGPT | Gemini | Mistral | Justification |
|---|---|---|---|---|
| 1. Marché bars à vin | ●●● | ●●○ | ●●● | ChatGPT et Mistral forts sur tendances sectorielles FR |
| 2. PESTEL | ●●○ | ●●○ | ●●● | Mistral meilleur pour INSEE, données françaises officielles |
| 3. SWOT | ●●● | ●●● | ●●○ | Gemini fort sur tourisme (Google data), ChatGPT sur rapports |
| 4. Concurrence | ●●○ | ●●● | ●●○ | Gemini a l'avantage Google Maps/Business pour commerces locaux |
| 5. Positionnement | ●●● | ●●○ | ●●● | Évaluation qualitative — poids égal ChatGPT/Mistral |
| 6. Pricing | ●●○ | ●●● | ●●● | Gemini (avis/cartes en ligne) et Mistral (contexte prix FR) dominent |
| 7. Fournisseurs | ●○○ | ●●● | ●●○ | Vérification d'existence = point fort Gemini (Google Business) |
| 8. Localisation | ●○○ | ●●● | ●●○ | Données géographiques/distances = écosystème Google |
Quand les 3 sources concordent, la pondération n'a pas d'impact (le consensus l'emporte). La pondération intervient quand les sources divergent — on donne alors plus de crédit à la source la mieux placée.
Les règles de décision varient selon le type de donnée (cf. section 3).
3/3 concordants (écart <10%) → Valeur médiane retenue, confiance Haute
2/3 concordants → Fourchette des 2 concordants, noter le divergent
3 valeurs distinctes → Moyenne pondérée (selon section 5), confiance Faible
Outlier >50% d'écart → Signalé, exclu du consensus
3/3 d'accord → Verdict direct
2/3 d'accord → Verdict du consensus, avec réserve
1/3 ou 0/3 → NON VÉRIFIABLE, vérification manuelle requise
On ne vote pas : on remonte la chaîne jusqu'à la source primaire
Si la source primaire est identique entre les 3 → un seul point de données (pas 3 confirmations indépendantes)
Si les sources primaires diffèrent mais concordent → vraie triangulation
Nombre de sources primaires distinctes reporté dans la colonne "Sources (n)"
Pas de vote — synthèse argumentée
Pondération par pertinence de la source au sujet (cf. section 5)
Mention explicite des arguments de chaque côté
Verdict = jugement pondéré, pas un décompte
Chaque affirmation du business plan reçoit un verdict et une action recommandée.
| Verdict | Définition |
|---|---|
| CONFIRMÉ | Donnée validée par le consensus des sources. Peut être conservée telle quelle dans le business plan. |
| PARTIELLEMENT CONFIRMÉ | Correct dans l'esprit mais chiffre à ajuster, ou vrai dans un contexte légèrement différent. |
| CONTREDIT | Donnée fausse, obsolète, ou contredite par la majorité des sources. |
| NON VÉRIFIABLE | Aucune source fiable trouvée. Donnée potentiellement inventée ou trop ancienne. |
Actions recommandées :
| Action | Signification |
|---|---|
| Aucune | Garder tel quel dans le business plan |
| Ajuster | Corriger le chiffre (nouvelle valeur proposée dans les résultats) |
| Supprimer | Retirer l'affirmation du business plan |
| Sourcer | Garder mais ajouter la référence à la source primaire |
| Approfondir | Recherche manuelle nécessaire (CCI, OT, terrain) |
Par souci de transparence, voici les limites connues de cette méthode de validation :
Chaque affirmation du business plan est évaluée dans un tableau avec la structure suivante :
| Colonne | Contenu |
|---|---|
| Affirmation | La donnée telle qu'elle apparaît dans le business plan |
| ChatGPT | Ce que ChatGPT dit (confirmé, nuancé, contredit, silencieux) |
| Gemini | Ce que Gemini dit |
| Mistral | Ce que Mistral dit |
| Consensus | Verdict final (CONFIRMÉ / PARTIELLEMENT CONFIRMÉ / CONTREDIT / NON VÉRIFIABLE) |
| Confiance | Niveau GRADE (●●●● à ●○○○) |
| Sources (n) | Nombre de sources primaires distinctes identifiées |
| Sources clés | Références identifiables (INSEE, CCI, OT, etc.) |
| Action | Recommandation (Aucune / Ajuster / Supprimer / Sourcer / Approfondir) |
Les résultats complets sont disponibles sur la page des résultats consolidés.
Par souci de transparence et de reproductibilité, voici le prompt exact soumis aux 3 modèles d'IA. Ce prompt a été copié-collé sans modification entre ChatGPT, Gemini et Mistral.
Ce prompt peut être réutilisé pour valider d'autres business plans similaires. Il suffit de remplacer les données spécifiques (nom du projet, adresse, concept, chiffres à vérifier) tout en conservant la structure des 8 sections.