Détecter les écrits générés par IA : ce que tout enseignant doit savoir

Ronan Broussier

Ronan Broussier

IA

Détecter les écrits générés par IA : ce que tout enseignant doit savoir

La question hante les amphithéâtres : ce devoir a-t-il vraiment été écrit par l'étudiant, ou par ChatGPT ? Chaque semaine, des enseignants se demandent s'ils peuvent faire confiance aux travaux soumis. La réaction naturelle est de chercher une solution technique : un détecteur d'IA qui trancherait sans appel.

Malheureusement, la réalité est plus complexe. Bien que certains outils affichent des taux de précision impressionnants, la détection de textes générés par IA reste imparfaite et, pire encore, peut mener à des accusations injustes. En juin 2025, le ministère français a d'ailleurs officiellement déconseillé l'utilisation de détecteurs automatiques pour les raisons que nous allons explorer.

Cet article vous présente l'état réel de la technologie de détection, ses limites et les stratégies alternatives que vous pouvez mettre en place pour avoir confiance dans les travaux de vos étudiants.

L'état de la technologie de détection

Les outils les plus fiables et leurs performances

Compilatio est actuellement l'outil le plus performant : il affiche 98,5 % de précision avec moins de 1,5 % de faux positifs. GPTZero se situe entre 85 et 88 % de précision. D'autres outils grand public se situent bien en dessous : Stanford a testé six détecteurs différents et trouvé une précision moyenne de 71-73 % seulement.

Ces chiffres peuvent sembler rassurants. Mais qu'est-ce qu'un "faux positif" ? C'est un texte humain qu'un outil classe comme généré par IA. Si un détecteur accuse à tort un étudiant d'avoir utilisé ChatGPT, vous l'exposez à une sanction potentiellement grave : zéro, voire exclusion. Ce n'est pas anodin.

Pourquoi même les meilleurs outils échouent

Les détecteurs d'IA recherchent des patterns statistiques : répétitions de mots, structures de phrases, absence d'imprécision, etc. Or ChatGPT produit du texte qui se veut impeccable sur le plan linguistique. Paradoxalement, c'est parfois trop parfait pour être humain.

Mais voici le piège : un étudiant francophone qui écrit avec soin et correction sera flaggé comme suspecte. Un texte généré puis revu manuellement sera plus difficile à détecter. La technologie dépend entièrement des patterns qu'elle a appris, et ces patterns évoluent aussi vite que l'IA elle-même.

Les textes non-anglophones : une faiblesse majeure

Plus de 60 % des textes non-anglophones sont mal classés par les détecteurs. Cette statistique est criante : si vous enseignez en français, vous ne pouvez pas compter sur une détection fiable.

Pourquoi ? Les détecteurs ont été entraînés principalement sur de l'anglais. Le français, l'espagnol, le mandarin ou d'autres langues disposent d'ensembles de données d'entraînement beaucoup plus limités. Vos étudiants internationaux sont particulièrement vulnérables à des faux positifs.

Les pièges de la détection automatique

Modification et contournement

Une étude révélatrice : modifier 25 % d'un texte généré par IA réduit sa détection de 47 %. En d'autres termes, un étudiant intelligent qui reprend une réponse ChatGPT en la replaçant partiellement peut très facilement échapper à la détection.

Les détecteurs ne sont donc pas vraiment une barrière. Ils pénalisent les utilisateurs naïfs de l'IA, ceux qui copient-collent naïvement. Mais celui qui a l'intention de contourner la règle le fera sans mal.

OpenAI a retiré son propre détecteur

OpenAI a lancé le "AI Text Classifier" pour détecter les textes générés par son propre ChatGPT. Le résultat ? 26 % de précision. C'est pire qu'un tirage au sort. OpenAI a retiré le tool en juillet 2023, reconnaissant que le problème était intrinsèquement difficile.

Cela vous dit quelque chose ? Si la compagnie qui a créé ChatGPT ne peut pas détecter fiablement ses propres résultats, quelle chance ont les détecteurs tiers ?

Les risques d'accusations injustes

Un faux positif n'est pas juste une erreur technique. C'est potentiellement une accusation de malhonnêteté. Imaginez un étudiant honnête, qui a écrit son devoir sans aide IA, accusé d'avoir triché sur la base d'un faux positif d'un détecteur.

Les procédures disciplinaires, même si elles lui donnent raison, laissent des traces. Son dossier académique, sa confiance, sa relation avec l'université sont affectés. Les risques légaux pour l'institution sont réels aussi.

La position officielle française

Le ministère déconseille formellement la détection automatique

En juin 2025, le ministère français a publié un cadre d'usage de l'IA en éducation qui déconseille explicitement l'utilisation de détecteurs automatiques comme seul moyen d'identifier la triche.

Cette recommandation ne vient pas d'une incompétence administrative. Elle résulte d'une analyse lucide : le bénéfice marginal de la détection est dépassé par le risque d'erreurs injustifiées. C'est une prise de position éthique forte.

Vers une transparence accrue

Au lieu de détecter, le ministère encourage la transparence. Demandez explicitement aux étudiants s'ils ont utilisé l'IA et à quel titre. Créez un environnement où cette question est légitime, pas honteuse.

Cette approche fonctionne mieux qu'on pourrait le croire : la plupart des étudiants qui utilisent honnêtement l'IA ne vont pas vous mentir directement. Ceux qui tricheraient de toute façon le feront, détecteur ou pas.

Les stratégies alternatives qui fonctionnent

1. Évaluations hybrides : combiner écrit et oral

L'examen oral reste très difficile à "tricher" avec l'IA. Un étudiant peut avoir un devoir écrit impeccable généré par ChatGPT, mais incapable de le défendre à l'oral ou de répondre à des questions de suivi.

Combinez donc une composante écrite et une composante orale. Même 20 minutes de discussion permet d'établir si l'étudiant maîtrise réellement le sujet.

2. Analyse critique du processus, pas seulement du produit

Demandez à vos étudiants de documenter leur processus : les brouillons, les versions antérieures, les choix qu'ils ont faits et pourquoi. Un simple Google Doc avec historique de modification rend très visible le processus de rédaction.

Un texte généré d'un coup par IA ne présente pas d'historique de révisions progressives. Ce critère de processus est plus fiable qu'un score de détecteur.

3. Transparence et auto-déclaration

Incluez dans votre syllabus une question simple : "Avez-vous utilisé l'IA pour ce travail ? Si oui, de quelle manière ?" Un encadré dans la copie remise.

La majorité des étudiants répondront honnêtement. Ceux qui mentent peuvent être traités dans le cadre normal de l'académie (par des questions orales de suivi par exemple). Vous avez éliminé la question technologique au profit de l'éthique explicite.

4. Diversifier les formats d'évaluation

Présentations orales, débats, projets collectifs, portfolios : chaque format crée des contextes où l'IA joue un rôle mineur ou nul.

Un étudiant peut avoir fait générer un devoir écrit par ChatGPT. Il ne peut pas faire générer un débat en direct avec ses camarades, ni un projet construit en équipe sous votre supervision.

5. Évaluations en classe ou sous surveillance

L'examen en amphi, sous contrôle, reste l'évaluation la plus irréprochable. Pas d'IA possible (ou très contrôlée), processus transparent, évaluation en temps réel.

Si vous souhaitez minimiser les préoccupations liées à l'IA, c'est le format à privilégier. Les devoirs à domicile seront toujours plus difficiles à certifier.

Construire un cadre de confiance

Clarifier les règles dès le départ

Une charte explicite dans votre syllabus réduit considérablement les ambiguïtés : "Pour cet exercice, ChatGPT est interdit", "Pour ce projet, ChatGPT est autorisé pour la recherche, pas pour la rédaction", "Pour ce travail de groupe, vous pouvez utiliser IA pour brainstormer, mais la production finale doit être votre analyse".

Plus vos directives sont précises, moins vos étudiants auront d'excuses pour contourner les règles.

Engager le dialogue plutôt que de soupçonner

Si vous sentez que quelqu'un a utilisé l'IA, posez la question directement dans un cadre bienveillant. "J'ai remarqué que ton approche est très similaire à celle qu'on trouve dans les réponses IA. Peux-tu m'expliquer ton processus ?" Vous laissez place à la correction, pas seulement à la sanction.

La plupart des étudiants ne sont pas malhonnêtes par tempérament. Ils testent les limites. Une réaction juste et dénuée de culpabilité préalable renforce le contrat moral de votre classe.

Modérer les sanctions

Une première utilisation non déclarée de l'IA ne devrait pas équivaloir à un zéro complet ou à une exclusion. Graduer les conséquences selon la gravité : avertissement pour une première infraction accidentelle, travail à recommencer, points déduits, voire sanction académique plus grave pour les récidives intentionnelles.

Cette proportionnalité renforce la légitimité perçue des règles.

Les cas limites et ambiguïtés

L'IA pour corriger et améliorer

Un étudiant qui écrit son devoir puis le passe par ChatGPT pour corriger la grammaire et la fluidité : c'est de l'IA acceptée ou refusée ? Votre syllabus doit le préciser.

Nous penserions que c'est une bonne pratique d'amélioration continue. Mais si vous ne l'autorisez pas, soyez clair.

L'assistance IA comme avantage de naissance

Un étudiant qui a toujours accès à une licence ChatGPT Premium a un avantage sur celui qui ne peut pas se le permettre. Si vous utilisez l'IA dans vos enseignements, pensez à fournir des accès égaux ou des alternatives gratuites (Copilot, Gemini, etc.).

Les réécritures manuelles post-IA

Un étudiant qui génère du contenu IA, puis le réécrit manuellement en changeant 30-50 % du texte : c'est fraude, amélioration, ou simple utilisation d'outil ? Les frontières ne sont pas évidentes.

C'est précisément pour cette raison que les stratégies de processus (historique, dialogue) fonctionnent mieux que la détection par scoring.

Ressources pour aller plus loin

Consultez le cadre du ministère français (juin 2025) pour les recommandations officielles. Explorez les recherches de Stanford sur les limites des détecteurs. Lisez les guides d'universités innovantes qui proposent des alternatives à la détection.

Si vous utilisez un outil comme Compilatio ou Turnitin, consultez leur documentation sur les limites de la détection spécifiquement pour votre langue d'enseignement.