L’IA générative devient la base de plus de contenu, laissant beaucoup s’interroger sur la fiabilité de leur détecteur d’IA.
En réponse, plusieurs études ont été menées sur l’efficacité des outils de détection de l’IA pour faire la distinction entre le contenu humain et généré par l’IA.
Nous décomposerons ces études pour vous aider à en savoir plus sur le fonctionnement des détecteurs d’IA, vous montrer un exemple de détecteurs d’IA en action et vous aider à décider si vous pouvez faire confiance aux outils – ou aux études.
Les détecteurs d’IA sont-ils biaisés ?
Les chercheurs ont découvert que les détecteurs de contenu IA – ceux destinés à détecter le contenu généré par GPT – pourraient avoir un biais important contre les écrivains anglais non natifs.
L’étude a révélé que ces détecteurs, conçus pour faire la différence entre l’IA et le contenu généré par l’homme, classent systématiquement à tort les échantillons d’écriture en anglais non natif comme générés par l’IA tout en identifiant avec précision les échantillons d’écriture en anglais natif.
En utilisant des échantillons d’écriture d’écrivains anglais natifs et non natifs, les chercheurs ont découvert que les détecteurs classaient à tort plus de la moitié de ces derniers échantillons comme générés par l’IA.
Fait intéressant, l’étude a également révélé que de simples stratégies d’incitation, telles que “Élevez le texte fourni en employant un langage littéraire», pourrait atténuer ce biais et contourner efficacement les détecteurs GPT.
Les résultats suggèrent que les détecteurs GPT peuvent involontairement pénaliser les écrivains avec des expressions linguistiques contraintes, soulignant la nécessité de se concentrer davantage sur l’équité et la robustesse de ces outils.
Cela pourrait avoir des implications importantes, en particulier dans les contextes évaluatifs ou éducatifs, où les anglophones non natifs peuvent être par inadvertance pénalisés ou exclus du discours mondial. Cela conduirait autrement à “des conséquences injustes et le risque d’exacerber les préjugés existants”.
Les chercheurs soulignent également la nécessité de poursuivre les recherches pour remédier à ces biais et affiner les méthodes de détection actuelles afin de garantir un paysage numérique plus équitable et sécurisé pour tous les utilisateurs.
Pouvez-vous battre un détecteur d’IA ?
Dans une étude distincte sur le texte généré par l’IA, les chercheurs documentent l’optimisation d’exemples en contexte basée sur la substitution (SICO), permettant aux grands modèles de langage (LLM) comme ChatGPT d’échapper à la détection par les détecteurs de texte générés par l’IA.
L’étude a utilisé trois tâches pour simuler des scénarios d’utilisation réels des LLM où la détection de texte généré par l’IA est cruciale, y compris des essais académiques, des questions et réponses ouvertes et des revues d’entreprise.
Cela impliquait également de tester SICO par rapport à six détecteurs représentatifs – y compris des modèles basés sur la formation, des méthodes statistiques et des API – qui ont constamment surpassé les autres méthodes sur tous les détecteurs et ensembles de données.
Les chercheurs ont constaté que SICO était efficace dans tous les scénarios d’utilisation testés. Dans de nombreux cas, le texte généré par SICO était souvent impossible à distinguer du texte écrit par l’homme.
Cependant, ils ont également souligné l’utilisation abusive potentielle de cette technologie. Étant donné que SICO peut aider le texte généré par l’IA à échapper à la détection, des acteurs malveillants pourraient également l’utiliser pour créer des informations trompeuses ou fausses qui semblent écrites par des humains.
Les deux études indiquent la vitesse à laquelle le développement de l’IA générative dépasse celui des détecteurs de texte IA, la seconde soulignant le besoin d’une technologie de détection plus sophistiquée.
Ces chercheurs suggèrent que l’intégration de SICO pendant la phase de formation des détecteurs d’IA pourrait améliorer leur robustesse et que le concept de base de SICO pourrait être appliqué à diverses tâches de génération de texte, ouvrant de nouvelles voies pour de futures recherches sur la génération de texte et l’apprentissage en contexte.
Les détecteurs d’IA penchent-ils vers la classification humaine ?
Les chercheurs d’une troisième étude ont compilé des études antérieures sur la fiabilité des détecteurs d’IA, suivies de leurs données, publiant plusieurs conclusions sur ces outils.
- Aydin & Karaarslan (2022) ont révélé qu’iThenticate, un outil de détection de plagiat populaire, a trouvé des taux de correspondance élevés avec du texte paraphrasé par ChatGPT.
- Wang et al. (2023) ont constaté qu’il est plus difficile de détecter le code généré par l’IA que le contenu en langage naturel. De plus, certains outils présentaient un biais, tendant à identifier le texte comme généré par l’IA ou écrit par l’homme.
- Pegoraro et al. (2023) ont constaté que la détection de texte généré par ChatGPT est très difficile, l’outil le plus efficace atteignant un taux de réussite inférieur à 50 %.
- Van Oijen (2023) a révélé que la précision globale des outils de détection de texte généré par l’IA n’était que d’environ 28 %, le meilleur outil n’atteignant qu’une précision de 50 %. À l’inverse, ces outils étaient plus efficaces (précision d’environ 83 %) pour détecter le contenu écrit par l’homme.
- Anderson et al. (2023) ont observé que la paraphrase réduisait considérablement l’efficacité du détecteur de sortie GPT-2.
À l’aide de 14 outils de détection de texte générés par l’IA, les chercheurs ont créé plusieurs dizaines de cas de test dans différentes catégories, notamment :
- Texte écrit par l’homme.
- Texte traduit.
- Texte généré par l’IA.
- Texte généré par l’IA avec des modifications humaines.
- Texte généré par l’IA avec paraphrase de l’IA.
Ces tests ont été évalués à l’aide des éléments suivants :

Turnitin est devenu l’outil le plus précis dans toutes les approches, suivi de Compilatio et du détecteur de sortie GPT-2.
Cependant, la plupart des outils testés ont montré un biais en faveur de la classification précise du texte écrit par l’homme, par rapport au texte généré par l’IA ou modifié.
Bien que ce résultat soit souhaitable dans des contextes universitaires, l’étude et d’autres ont mis en évidence le risque de fausses accusations et de cas non détectés. Les faux positifs étaient minimes dans la plupart des outils, à l’exception de GPT Zero, qui présentait un taux élevé.
Les cas non détectés étaient une préoccupation, en particulier pour les textes générés par l’IA qui ont subi une édition humaine ou une paraphrase automatique. La plupart des outils avaient du mal à détecter un tel contenu, ce qui constituait une menace potentielle pour l’intégrité académique et l’équité entre les étudiants.
L’évaluation a également révélé des difficultés techniques avec les outils.
Certains ont rencontré des erreurs de serveur ou ont eu des limitations dans l’acceptation de certains types d’entrée, tels que le code informatique. D’autres ont rencontré des problèmes de calcul et la gestion des résultats dans certains outils s’est avérée difficile.
Les chercheurs ont suggéré qu’il serait crucial de remédier à ces limitations pour mettre en œuvre efficacement des outils de détection de texte générés par l’IA dans les environnements éducatifs, garantissant une détection précise des fautes tout en minimisant les fausses accusations et les cas non détectés.
Quelle est la précision de ces études ?
Faut-il faire confiance aux outils de détection d’IA basés sur les résultats de ces études ?
La question la plus importante pourrait être de savoir si vous devez faire confiance à ces études sur les outils de détection de l’IA.
J’ai envoyé la troisième étude mentionnée ci-dessus à Jonathan Gillham, fondateur de Originality.ai. Il avait quelques commentaires très détaillés et perspicaces.
Pour commencer, Originality.ai n’était pas destiné au secteur de l’éducation. D’autres détecteurs d’IA testés n’ont peut-être pas non plus été créés pour cet environnement.
L’exigence pour l’utilisation dans le milieu universitaire est qu’elle produise une réponse exécutoire. C’est en partie pourquoi nous communiquons explicitement (en haut de notre page d’accueil) que notre outil est destiné au marketing numérique et NON au milieu universitaire.
La capacité d’évaluer plusieurs articles soumis par le même auteur (pas un étudiant) et de porter un jugement éclairé est un bien meilleur cas d’utilisation que de prendre des décisions consécutives sur un seul article soumis par un étudiant.
La définition du contenu généré par l’IA peut varier entre ce que l’étude indique et ce que chaque outil de détection de l’IA identifie. Gillham a inclus ce qui suit comme référence à diverses significations de l’IA et du contenu généré par l’homme.
- Généré par l’IA et non édité = texte généré par l’IA.
- Généré par l’IA et édité par l’homme = texte généré par l’IA.
- Contour AI, écrit par l’homme et fortement édité par l’IA = texte généré par l’IA.
- Recherche sur l’IA et écrit humain = Original généré par l’homme.
- Humain écrit et édité avec grammaire = original généré par l’homme.
- Écrit par l’homme et édité par l’homme = Original généré par l’homme.
Certaines catégories de l’étude ont testé le texte traduit par l’IA, s’attendant à ce qu’il soit classé comme humain. Par exemple, à la page 10 de l’étude, il est écrit :
Pour la deuxième catégorie (appelée 02-MT), environ 10 000 caractères (espaces compris) ont été écrits en bosniaque, tchèque, allemand, letton, slovaque, espagnol et suédois. Aucun de ces textes n’a peut-être été exposé sur Internet auparavant, comme pour 01-Hum. Selon la langue, l’outil de traduction IA DeepL (3 cas) ou Google Translate (6 cas) a été utilisé pour produire les documents de test en anglais.
Au cours de la période d’expérimentation de deux mois, certains outils auraient fait d’énormes progrès. Gillham a inclus une représentation graphique des améliorations dans les deux mois suivant les mises à jour de version.

D’autres problèmes avec l’analyse de l’étude que Gillham ont identifiés comprenaient une petite taille d’échantillon (54), des réponses mal classées et l’inclusion de seulement deux outils payants.
Les données et le matériel de test auraient dû être disponibles sur l’URL incluse à la fin de l’étude. Une demande de données faite sur deux semaines reste sans réponse.
Ce que les experts de l’IA avaient à dire sur les outils de détection de l’IA
J’ai interrogé la communauté HARO pour savoir ce que d’autres avaient à dire sur leur expérience avec les détecteurs d’IA, ce qui a conduit à une étude involontaire de ma part.
À un moment donné, j’ai reçu cinq réponses en deux minutes qui étaient des réponses en double provenant de différentes sources, ce qui semblait suspect.
J’ai décidé d’utiliser Originality.ai sur toutes les réponses HARO que j’ai reçues pour cette requête. Sur la base de mon expérience personnelle et de tests non scientifiques, cet outil particulier semblait difficile à battre.

Originality.ai a détecté, avec une confiance de 100 %, que la plupart de ces réponses étaient générées par l’IA.
Les seules réponses HARO qui sont revenues comme étant principalement générées par l’homme étaient des introductions d’une à deux phrases à des sources potentielles que je pourrais être intéressé à interviewer.
Ces résultats n’étaient pas une surprise car il existe des extensions Chrome pour ChatGPT pour écrire des réponses HARO.

Ce que la FTC avait à dire sur les outils de détection d’IA
La Federal Trade Commission a mis en garde les entreprises contre la surestimation des capacités des outils d’IA pour détecter le contenu généré, avertissant que des allégations marketing inexactes pourraient violer les lois sur la protection des consommateurs.
Les consommateurs ont également été invités à se méfier des affirmations selon lesquelles les outils de détection d’IA peuvent identifier de manière fiable tout contenu artificiel, car la technologie a des limites.
La FTC a déclaré qu’une évaluation solide était nécessaire pour étayer les affirmations marketing concernant les outils de détection d’IA.
L’IA a-t-elle été utilisée pour rédiger la Constitution ?
Les outils de détection de l’IA ont fait la une des journaux lorsque les utilisateurs ont découvert qu’il était possible que l’IA ait écrit la Constitution des États-Unis.

Un article sur Ars Technica a expliqué pourquoi les outils de détection d’écriture d’IA identifient souvent à tort des textes comme la Constitution américaine comme générés par l’IA.

Le langage historique et formel donne souvent de faibles scores de « perplexité » et de « rafale », qu’ils interprètent comme des indicateurs de l’écriture de l’IA.

Les écrivains humains peuvent utiliser des phrases et des styles formels courants, ce qui donne des scores similaires.
Cet exercice a encore prouvé le point de vue de la FTC selon lequel les consommateurs devraient être sceptiques quant aux scores des détecteurs d’IA.
Forces et limites
Les résultats de diverses études mettent en évidence les forces et les limites des outils de détection de l’IA.
Bien que les détecteurs d’IA aient montré une certaine précision dans la détection de texte généré par l’IA, ils ont également présenté des biais, des problèmes d’utilisabilité et des vulnérabilités aux techniques d’évasion.
Mais les études elles-mêmes pourraient être défectueuses, laissant tout à la spéculation.
Des améliorations sont nécessaires pour corriger les biais, renforcer la robustesse et assurer une détection précise dans différents contextes.
La poursuite de la recherche et du développement est essentielle pour favoriser la confiance dans les détecteurs d’IA et créer un paysage numérique plus équitable et plus sûr.
Image en vedette : Ascannio/Shutterstock
Faut-il faire confiance à un détecteur d’IA ?