Methodologie — Validation Etude de Marche

1

Approche generale

Le business plan du bar a vin "Terres & Fondues" avance des donnees de marche qui doivent etre validees avant soumission. Pour ce faire, un prompt de recherche identique a ete soumis a 3 modeles d'IA disposant de capacites de recherche web approfondie :

Source	Mode	Format
ChatGPT	Deep Research	Markdown
Gemini	Deep Research	Markdown / DOCX
Mistral	Le Chat	PDF

Principe cle

Le prompt est strictement identique entre les 3 LLMs. Cela garantit que les divergences observees proviennent des capacites de recherche et des biais de chaque modele — pas de differences dans la question posee.

Les 3 rapports sont ensuite analyses selon une methode de triangulation inspiree des revues systematiques en recherche, adaptee au contexte d'un business plan scolaire.

2

Profil des sources et biais identifies

Chaque modele d'IA presente des forces et faiblesses specifiques qui influencent la fiabilite de ses reponses selon le type de donnee recherchee.

Source	Forces	Faiblesses
ChatGPT	Donnees structurees, tendances de marche, citations academiques, rapports sectoriels	Hallucination possible de sources, tendance a affirmer avec certitude meme sans preuve forte
Gemini	Donnees locales/geographiques (acces ecosysteme Google : Maps, Business, avis), tourisme, donnees regionales	Verbeux, peut noyer les reponses precises dans le volume, parfois redondant
Mistral	Contexte francais natif, donnees INSEE/regionales, comprehension fine du tissu economique local	Capacite de recherche web plus limitee, moins de sources internationales

Avertissement important

Les 3 "experts" sont des modeles de langage, pas des analystes humains. Ils partagent potentiellement des donnees d'entrainement communes, ce qui signifie qu'un accord 3/3 peut refleter une source unique reprise par les 3 modeles, pas 3 confirmations independantes. C'est pourquoi la tracabilite des sources primaires est centrale dans cette methode.

3

Classification des donnees

Le business plan contient des affirmations de nature differente. Chaque type de donnee appelle une methode de validation distincte.

Type	Description	Exemple	Methode
A	Fait verifiable (chiffre precis)	Population Annecy = 131 272	Consensus numerique + source primaire
B	Existence binaire (oui/non)	Le Bock Cafe existe-t-il ?	Majorite 2/3 minimum
C	Statistique sourcee (enquete, etude)	42% des Francais vont moins au resto	Tracabilite de la source originale
D	Evaluation qualitative (opinion)	Le positionnement est-il differenciant ?	Synthese ponderee des arguments

Pourquoi cette distinction est importante

Pour un chiffre de type A, 3 LLMs qui donnent le meme nombre ne constituent qu'une seule confirmation s'ils citent tous la meme page INSEE. En revanche, pour une evaluation de type D, 3 analyses convergentes avec des arguments differents constituent une vraie triangulation.

4

Systeme de scoring (GRADE adapte)

Le systeme de confiance s'inspire du framework GRADE (Grading of Recommendations, Assessment, Development and Evaluations), standard en recherche medicale pour evaluer la qualite des preuves. Il est adapte ici au contexte d'un business plan.

Niveau	Visuel	Criteres
Haute		3/3 concordants + source primaire identifiable + donnees recentes (<2 ans)
Moderee		2/3 concordants, ou 3/3 mais sans source primaire verifiable
Faible		Sources divergentes, ou 1 seule source, ou donnees >3 ans
Tres faible		Aucune source, ou hallucination probable, ou chiffre manifestement invente

Facteurs qui degradent le score :

Facteur	Impact
Source primaire non identifiable	−1 niveau
Donnees de plus de 3 ans	−1 niveau
Un seul LLM fournit le chiffre	−1 niveau
Suspicion d'hallucination	−2 niveaux

Facteurs qui ameliorent le score :

Facteur	Impact
Source primaire consultable (INSEE, CCI, OT Annecy)	+1 niveau
Corrobore par une source non-LLM	+1 niveau

5

Ponderation dynamique par section

Contrairement a une ponderation fixe (ou chaque source aurait toujours le meme poids), la ponderation varie selon la section analysee. Le principe : chaque LLM est plus fiable dans son domaine de force.

Section	ChatGPT	Gemini	Mistral	Justification
1. Marche bars a vin	●●●	●●○	●●●	ChatGPT et Mistral forts sur tendances sectorielles FR
2. PESTEL	●●○	●●○	●●●	Mistral meilleur pour INSEE, donnees francaises officielles
3. SWOT	●●●	●●●	●●○	Gemini fort sur tourisme (Google data), ChatGPT sur rapports
4. Concurrence	●●○	●●●	●●○	Gemini a l'avantage Google Maps/Business pour commerces locaux
5. Positionnement	●●●	●●○	●●●	Evaluation qualitative — poids egal ChatGPT/Mistral
6. Pricing	●●○	●●●	●●●	Gemini (avis/cartes en ligne) et Mistral (contexte prix FR) dominent
7. Fournisseurs	●○○	●●●	●●○	Verification d'existence = point fort Gemini (Google Business)
8. Localisation	●○○	●●●	●●○	Donnees geographiques/distances = ecosysteme Google

Lecture de la ponderation

●●● = Poids eleve — Cette source est particulierement fiable pour ce type de donnee
●●○ = Poids moyen — Source utile mais pas dominante sur ce sujet
●○○ = Poids faible — Source moins adaptee, utilisee en complement uniquement

Quand les 3 sources concordent, la ponderation n'a pas d'impact (le consensus l'emporte). La ponderation intervient quand les sources divergent — on donne alors plus de credit a la source la mieux placee.

6

Regles de triangulation

Les regles de decision varient selon le type de donnee (cf. section 3).

Type A — Donnees numeriques

3/3 concordants (ecart <10%) → Valeur mediane retenue, confiance Haute

2/3 concordants → Fourchette des 2 concordants, noter le divergent

3 valeurs distinctes → Moyenne ponderee (selon section 5), confiance Faible

Outlier >50% d'ecart → Signale, exclu du consensus

Type B — Faits binaires (existence)

3/3 d'accord → Verdict direct

2/3 d'accord → Verdict du consensus, avec reserve

1/3 ou 0/3 → NON VERIFIABLE, verification manuelle requise

Type C — Statistiques sourcees

On ne vote pas : on remonte la chaine jusqu'a la source primaire

Si la source primaire est identique entre les 3 → un seul point de donnees (pas 3 confirmations independantes)

Si les sources primaires different mais concordent → vraie triangulation

Nombre de sources primaires distinctes reporte dans la colonne "Sources (n)"

Type D — Evaluations qualitatives

Pas de vote — synthese argumentee

Ponderation par pertinence de la source au sujet (cf. section 5)

Mention explicite des arguments de chaque cote

Verdict = jugement pondere, pas un decompte

7

Verdicts et actions

Chaque affirmation du business plan recoit un verdict et une action recommandee.

Verdict	Definition
CONFIRME	Donnee validee par le consensus des sources. Peut etre conservee telle quelle dans le business plan.
PARTIELLEMENT CONFIRME	Correct dans l'esprit mais chiffre a ajuster, ou vrai dans un contexte legerement different.
CONTREDIT	Donnee fausse, obsolete, ou contredite par la majorite des sources.
NON VERIFIABLE	Aucune source fiable trouvee. Donnee potentiellement inventee ou trop ancienne.

Actions recommandees :

Action	Signification
Aucune	Garder tel quel dans le business plan
Ajuster	Corriger le chiffre (nouvelle valeur proposee dans les resultats)
Supprimer	Retirer l'affirmation du business plan
Sourcer	Garder mais ajouter la reference a la source primaire
Approfondir	Recherche manuelle necessaire (CCI, OT, terrain)

8

Limites declarees

Par souci de transparence, voici les limites connues de cette methode de validation :

Contamination des donnees d'entrainement — Les 3 LLMs partagent potentiellement des corpus communs. Un accord 3/3 peut refleter une source unique reprise dans les donnees d'entrainement de chaque modele, pas 3 recherches independantes.
Prompt identique — Le meme prompt a ete utilise pour les 3 sources. Cela garantit la comparabilite mais limite la diversite des angles d'exploration. Des prompts differencies auraient pu reveler des informations complementaires.
Fragilite des donnees locales — Les LLMs disposent de moins de donnees sur Annecy specifiquement que sur Paris ou Lyon. Les informations locales (fournisseurs, concurrents, localisation) sont les plus susceptibles d'erreur.
Pas de verification terrain — Cette validation ne remplace pas une visite des concurrents, un appel aux fournisseurs, ou une consultation de la CCI Haute-Savoie. Les verdicts "CONFIRME" signifient "confirme par les sources en ligne accessibles aux LLMs", pas "verite absolue".
Temporalite — Les recherches ont ete effectuees en fevrier 2026. Les donnees economiques, prix et existence des commerces evoluent. Certaines sources citees par les LLMs datent de 2022-2024.

9

Format de la matrice de resultats

Chaque affirmation du business plan est evaluee dans un tableau avec la structure suivante :

Colonne	Contenu
Affirmation	La donnee telle qu'elle apparait dans le business plan
ChatGPT	Ce que ChatGPT dit (confirme, nuance, contredit, silencieux)
Gemini	Ce que Gemini dit
Mistral	Ce que Mistral dit
Consensus	Verdict final (CONFIRME / PARTIELLEMENT CONFIRME / CONTREDIT / NON VERIFIABLE)
Confiance	Niveau GRADE (●●●● a ●○○○)
Sources (n)	Nombre de sources primaires distinctes identifiees
Sources cles	References identifiables (INSEE, CCI, OT, etc.)
Action	Recommandation (Aucune / Ajuster / Supprimer / Sourcer / Approfondir)

Les resultats complets sont disponibles sur la page des resultats consolides.

Methodologie de validation

Principe cle

Avertissement important

Pourquoi cette distinction est importante

Lecture de la ponderation