Methodologie de validation

Triangulation multi-LLM — Scoring GRADE adapte

Terres & Fondues — Bar a vin, 74000 Annecy · Fevrier 2026
1
Approche generale

Le business plan du bar a vin "Terres & Fondues" avance des donnees de marche qui doivent etre validees avant soumission. Pour ce faire, un prompt de recherche identique a ete soumis a 3 modeles d'IA disposant de capacites de recherche web approfondie :

Source Mode Format
ChatGPT Deep Research Markdown
Gemini Deep Research Markdown / DOCX
Mistral Le Chat PDF

Principe cle

Le prompt est strictement identique entre les 3 LLMs. Cela garantit que les divergences observees proviennent des capacites de recherche et des biais de chaque modele — pas de differences dans la question posee.

Les 3 rapports sont ensuite analyses selon une methode de triangulation inspiree des revues systematiques en recherche, adaptee au contexte d'un business plan scolaire.

2
Profil des sources et biais identifies

Chaque modele d'IA presente des forces et faiblesses specifiques qui influencent la fiabilite de ses reponses selon le type de donnee recherchee.

Source Forces Faiblesses
ChatGPT Donnees structurees, tendances de marche, citations academiques, rapports sectoriels Hallucination possible de sources, tendance a affirmer avec certitude meme sans preuve forte
Gemini Donnees locales/geographiques (acces ecosysteme Google : Maps, Business, avis), tourisme, donnees regionales Verbeux, peut noyer les reponses precises dans le volume, parfois redondant
Mistral Contexte francais natif, donnees INSEE/regionales, comprehension fine du tissu economique local Capacite de recherche web plus limitee, moins de sources internationales

Avertissement important

Les 3 "experts" sont des modeles de langage, pas des analystes humains. Ils partagent potentiellement des donnees d'entrainement communes, ce qui signifie qu'un accord 3/3 peut refleter une source unique reprise par les 3 modeles, pas 3 confirmations independantes. C'est pourquoi la tracabilite des sources primaires est centrale dans cette methode.

3
Classification des donnees

Le business plan contient des affirmations de nature differente. Chaque type de donnee appelle une methode de validation distincte.

Type Description Exemple Methode
A Fait verifiable (chiffre precis) Population Annecy = 131 272 Consensus numerique + source primaire
B Existence binaire (oui/non) Le Bock Cafe existe-t-il ? Majorite 2/3 minimum
C Statistique sourcee (enquete, etude) 42% des Francais vont moins au resto Tracabilite de la source originale
D Evaluation qualitative (opinion) Le positionnement est-il differenciant ? Synthese ponderee des arguments

Pourquoi cette distinction est importante

Pour un chiffre de type A, 3 LLMs qui donnent le meme nombre ne constituent qu'une seule confirmation s'ils citent tous la meme page INSEE. En revanche, pour une evaluation de type D, 3 analyses convergentes avec des arguments differents constituent une vraie triangulation.

4
Systeme de scoring (GRADE adapte)

Le systeme de confiance s'inspire du framework GRADE (Grading of Recommendations, Assessment, Development and Evaluations), standard en recherche medicale pour evaluer la qualite des preuves. Il est adapte ici au contexte d'un business plan.

Niveau Visuel Criteres
Haute 3/3 concordants + source primaire identifiable + donnees recentes (<2 ans)
Moderee 2/3 concordants, ou 3/3 mais sans source primaire verifiable
Faible Sources divergentes, ou 1 seule source, ou donnees >3 ans
Tres faible Aucune source, ou hallucination probable, ou chiffre manifestement invente

Facteurs qui degradent le score :

FacteurImpact
Source primaire non identifiable−1 niveau
Donnees de plus de 3 ans−1 niveau
Un seul LLM fournit le chiffre−1 niveau
Suspicion d'hallucination−2 niveaux

Facteurs qui ameliorent le score :

FacteurImpact
Source primaire consultable (INSEE, CCI, OT Annecy)+1 niveau
Corrobore par une source non-LLM+1 niveau
5
Ponderation dynamique par section

Contrairement a une ponderation fixe (ou chaque source aurait toujours le meme poids), la ponderation varie selon la section analysee. Le principe : chaque LLM est plus fiable dans son domaine de force.

Section ChatGPT Gemini Mistral Justification
1. Marche bars a vin ●●● ●●○ ●●● ChatGPT et Mistral forts sur tendances sectorielles FR
2. PESTEL ●●○ ●●○ ●●● Mistral meilleur pour INSEE, donnees francaises officielles
3. SWOT ●●● ●●● ●●○ Gemini fort sur tourisme (Google data), ChatGPT sur rapports
4. Concurrence ●●○ ●●● ●●○ Gemini a l'avantage Google Maps/Business pour commerces locaux
5. Positionnement ●●● ●●○ ●●● Evaluation qualitative — poids egal ChatGPT/Mistral
6. Pricing ●●○ ●●● ●●● Gemini (avis/cartes en ligne) et Mistral (contexte prix FR) dominent
7. Fournisseurs ●○○ ●●● ●●○ Verification d'existence = point fort Gemini (Google Business)
8. Localisation ●○○ ●●● ●●○ Donnees geographiques/distances = ecosysteme Google

Lecture de la ponderation

  • ●●● = Poids eleve — Cette source est particulierement fiable pour ce type de donnee
  • ●●○ = Poids moyen — Source utile mais pas dominante sur ce sujet
  • ●○○ = Poids faible — Source moins adaptee, utilisee en complement uniquement

Quand les 3 sources concordent, la ponderation n'a pas d'impact (le consensus l'emporte). La ponderation intervient quand les sources divergent — on donne alors plus de credit a la source la mieux placee.

6
Regles de triangulation

Les regles de decision varient selon le type de donnee (cf. section 3).

Type A — Donnees numeriques

3/3 concordants (ecart <10%) → Valeur mediane retenue, confiance Haute

2/3 concordants → Fourchette des 2 concordants, noter le divergent

3 valeurs distinctes → Moyenne ponderee (selon section 5), confiance Faible

Outlier >50% d'ecart → Signale, exclu du consensus

Type B — Faits binaires (existence)

3/3 d'accord → Verdict direct

2/3 d'accord → Verdict du consensus, avec reserve

1/3 ou 0/3 → NON VERIFIABLE, verification manuelle requise

Type C — Statistiques sourcees

On ne vote pas : on remonte la chaine jusqu'a la source primaire

Si la source primaire est identique entre les 3 → un seul point de donnees (pas 3 confirmations independantes)

Si les sources primaires different mais concordent → vraie triangulation

Nombre de sources primaires distinctes reporte dans la colonne "Sources (n)"

Type D — Evaluations qualitatives

Pas de vote — synthese argumentee

Ponderation par pertinence de la source au sujet (cf. section 5)

Mention explicite des arguments de chaque cote

Verdict = jugement pondere, pas un decompte

7
Verdicts et actions

Chaque affirmation du business plan recoit un verdict et une action recommandee.

VerdictDefinition
CONFIRME Donnee validee par le consensus des sources. Peut etre conservee telle quelle dans le business plan.
PARTIELLEMENT CONFIRME Correct dans l'esprit mais chiffre a ajuster, ou vrai dans un contexte legerement different.
CONTREDIT Donnee fausse, obsolete, ou contredite par la majorite des sources.
NON VERIFIABLE Aucune source fiable trouvee. Donnee potentiellement inventee ou trop ancienne.

Actions recommandees :

ActionSignification
AucuneGarder tel quel dans le business plan
AjusterCorriger le chiffre (nouvelle valeur proposee dans les resultats)
SupprimerRetirer l'affirmation du business plan
SourcerGarder mais ajouter la reference a la source primaire
ApprofondirRecherche manuelle necessaire (CCI, OT, terrain)
8
Limites declarees

Par souci de transparence, voici les limites connues de cette methode de validation :

  • Contamination des donnees d'entrainement — Les 3 LLMs partagent potentiellement des corpus communs. Un accord 3/3 peut refleter une source unique reprise dans les donnees d'entrainement de chaque modele, pas 3 recherches independantes.
  • Prompt identique — Le meme prompt a ete utilise pour les 3 sources. Cela garantit la comparabilite mais limite la diversite des angles d'exploration. Des prompts differencies auraient pu reveler des informations complementaires.
  • Fragilite des donnees locales — Les LLMs disposent de moins de donnees sur Annecy specifiquement que sur Paris ou Lyon. Les informations locales (fournisseurs, concurrents, localisation) sont les plus susceptibles d'erreur.
  • Pas de verification terrain — Cette validation ne remplace pas une visite des concurrents, un appel aux fournisseurs, ou une consultation de la CCI Haute-Savoie. Les verdicts "CONFIRME" signifient "confirme par les sources en ligne accessibles aux LLMs", pas "verite absolue".
  • Temporalite — Les recherches ont ete effectuees en fevrier 2026. Les donnees economiques, prix et existence des commerces evoluent. Certaines sources citees par les LLMs datent de 2022-2024.
9
Format de la matrice de resultats

Chaque affirmation du business plan est evaluee dans un tableau avec la structure suivante :

Colonne Contenu
AffirmationLa donnee telle qu'elle apparait dans le business plan
ChatGPTCe que ChatGPT dit (confirme, nuance, contredit, silencieux)
GeminiCe que Gemini dit
MistralCe que Mistral dit
ConsensusVerdict final (CONFIRME / PARTIELLEMENT CONFIRME / CONTREDIT / NON VERIFIABLE)
ConfianceNiveau GRADE (●●●● a ●○○○)
Sources (n)Nombre de sources primaires distinctes identifiees
Sources clesReferences identifiables (INSEE, CCI, OT, etc.)
ActionRecommandation (Aucune / Ajuster / Supprimer / Sourcer / Approfondir)

Les resultats complets sont disponibles sur la page des resultats consolides.