paint-brush
Comment détecter le texte généré par l'intelligence artificiellepar@mcsee
9,328 lectures
9,328 lectures

Comment détecter le texte généré par l'intelligence artificielle

par Maximiliano Contieri6m2023/02/03
Read on Terminal Reader

Trop long; Pour lire

Un test de Turing sur les tests de Turing TL;DR : Un nouvel outil pour détecter l'I.A. textes générés.ME : Expliquez comment détecter le texte généré par l'IA.
featured image - Comment détecter le texte généré par l'intelligence artificielle
Maximiliano Contieri HackerNoon profile picture

Un test de Turing sur les tests de Turing

TL; DR : Un nouvel outil pour détecter les textes générés par l'IA.


Les générateurs de texte et les détecteurs de texte sont comme un jeu de 😾chat et souris🐁.


🤖Les outils d'Intelligence Artificielle et surtout les modèles GPT remplacent les métiers humains .


👨‍💻Même les mauvais programmeurs seront bientôt remplacés.


Il existait plusieurs outils de plagiat d'intelligence artificielle .


Maintenant, le modèle populaire ChatGPT d' open.ai a publié le sien.


Le blog complet est ici :

https://openai.com/blog/new-ai-classifier-for-indicating-ai-written-text/


Essayons:

1. Vérifiez mon explication originale

(J'ai écrit ceci à partir de ma propre expérience sans lire l'explication de ChatGPT )


Comment détecter le texte AI généré.


L'intelligence artificielle peut générer des textes à l'aide de modèles pré-formés.


Ces modèles sont basés sur des textes du domaine public et peuvent créer des connaissances en prédisant les relations entre les concepts.


Des textes synthétiques générés par l'intelligence artificielle donnent des faits sans citer les sources. Parfois, ils ne sont pas très profonds dans les explications à moins que nous ayons besoin de raffinement.


Un moyen simple de détecter les textes générés consiste à comparer plusieurs générateurs connus et à leur demander d'écrire le texte souhaité.


Un autre indice serait d'ajouter quelques erreurs de grammaire pour voir si l'outil comprend son jeu de données puisque seuls les humains font des erreurs.


Si vous lisez de nombreux textes générés par l'intelligence artificielle, vous remarquerez qu'ils utilisent les mêmes modèles de grammaire.


Vous pouvez demander aux générateurs de cibler d'autres publics, d'utiliser des voix actives, etc.


Vous pouvez alors mesurer la distance des mots, les mots communs, etc.


Après l'avoir comparé avec un seuil prévu, vous pouvez vérifier dans quelle mesure nous sommes convaincus que le texte n'a pas été généré par un être humain.


J'ai écrit seul le texte ci-dessus, et après avoir utilisé plusieurs outils d'aide à la rédaction comme HemingwayApp ou Grammarly, je l'ai mis dans le tout nouvel outil ici .


Résultat : le classificateur considère que le texte est peu susceptible d'être généré par l'IA. 😺


J'ai réussi le test de Turing. 😺🧠


Étant l'échelle :

"Très peu susceptible d'être généré par l'IA" correspond à un seuil de classificateur <0,1. Environ 5 % des textes écrits par des humains et 2 % des textes générés par l'IA de notre ensemble de défis portent cette étiquette.


« Peu susceptible d'être généré par l'IA » correspond à un seuil de classificateur compris entre 0,1 et 0,45. Environ 15 % des textes écrits par des humains et 10 % des textes générés par l'IA de notre ensemble de défis portent cette étiquette.


"Pas clair si c'est AI écrit" correspond à un seuil de classificateur compris entre 0,45 et 0,9. Environ 50 % des textes écrits par des humains et 34 % des textes générés par l'IA de notre ensemble de défis portent cette étiquette.


"Possably AI-generated" correspond à un seuil de classificateur compris entre 0,9 et 0,98. Environ 21 % des textes écrits par des humains et 28 % des textes générés par l'IA de notre ensemble de défis portent cette étiquette.


"Probablement généré par l'IA" correspond à un seuil de classificateur >0,98. Environ 9 % des textes écrits par des humains et 26 % des textes générés par l'IA de notre ensemble de défis portent cette étiquette.

2. Vérifiez l'explication de ChatGPT

ME : Expliquer comment détecter le texte généré par l'IA


ChatGPT : la détection de texte généré par l'IA peut être difficile, mais plusieurs méthodes peuvent être utilisées :


Reconnaissance de formes : le texte généré par l'IA présente souvent des modèles dans la structure des phrases, l'utilisation de la langue et le choix des mots qui peuvent être distinctifs par rapport au texte écrit par l'homme.


Analyse statistique : le texte généré par l'IA peut être analysé pour certaines caractéristiques statistiques telles que la fréquence des caractères et des mots et la distribution des n-grammes qui sont différentes du texte écrit par l'homme.


Évaluation humaine : dans certains cas, des experts humains peuvent examiner le texte et déterminer s'il a été écrit par un humain ou généré par l'IA en fonction de leur expérience et de leur expertise.


Utilisation de modèles d'IA : les modèles d'IA peuvent être formés pour identifier le texte généré par l'IA à l'aide d'un ensemble de données étiquetées de texte écrit par l'homme et généré par l'IA. Le modèle peut ensuite être utilisé pour identifier le texte généré par l'IA dans un nouveau texte invisible.


Il convient de noter que la technologie de l'IA continue d'évoluer et que de nouvelles méthodes de génération de texte sont en cours de développement, de sorte que ces méthodes ne sont pas toujours infaillibles.


Belle explication. Utilisons à nouveau l'outil.


Résultat : le classificateur considère que le texte a peut-être été généré par l'IA.😂


Le modèle a une précision > 0,9 que l'intelligence artificielle l'a généré.


C'était prévu.

3. Vérifiez l'explication de Wikipedia

Coupez-collez cet article .


« La génération de langage naturel (NLG) est un processus logiciel qui produit une sortie en langage naturel. Une enquête largement citée sur les méthodes de la NLG décrit la NLG comme "le sous-domaine de l'intelligence artificielle et de la linguistique informatique qui s'intéresse à la construction de systèmes informatiques capables de produire des textes compréhensibles en anglais ou dans d'autres langues humaines à partir d'une représentation non linguistique sous-jacente de l'information" .


Bien qu'il soit largement admis que la sortie de tout processus NLG est du texte, il existe un certain désaccord sur la question de savoir si les entrées d'un système NLG doivent être non linguistiques. Les applications courantes des méthodes NLG comprennent la production de divers rapports, par exemple des rapports sur la météo et les patients ; légendes des images ; et les chatbots.


La NLG automatisée peut être comparée au processus que les humains utilisent lorsqu'ils transforment des idées en écriture ou en parole. Les psycholinguistes préfèrent le terme production de langage pour ce processus, qui peut également être décrit en termes mathématiques, ou modélisé dans un ordinateur pour la recherche psychologique.


Les systèmes NLG peuvent également être comparés à des traducteurs de langages informatiques artificiels, tels que des décompilateurs ou des transpileurs, qui produisent également un code lisible par l'homme généré à partir d'une représentation intermédiaire.


Les langages humains ont tendance à être considérablement plus complexes et permettent beaucoup plus d'ambiguïté et de variété d'expression que les langages de programmation, ce qui rend la NLG plus difficile.


Résultat : le classificateur considère que le texte n'est pas clair s'il est généré par l'IA. 📚


La confiance est comprise entre 0,45 et 0,9.


En regardant l'historique de la page, nous voyons plusieurs humains et pas autant de bots.


Ma conclusion est que ChatGPT a été alimenté partiellement avec le texte, il mesure donc le surajustement .

4. Vérifiez ChatGPT avec Human Edit

J'ai pris le texte généré par ChatGPT et je l'ai édité moi-même avec mes outils d'édition.


La détection de texte généré par l'IA peut être difficile, mais vous pouvez utiliser plusieurs méthodes.


Vous pouvez également utiliser des modèles d'IA en vous entraînant pour identifier le texte généré par l'IA à l'aide d'un ensemble de données étiquetées de texte écrit par l'homme et généré par l'IA.


Vous pouvez utiliser la reconnaissance de formes, car le texte généré par l'IA présente souvent des modèles dans la structure des phrases, l'utilisation de la langue et le choix des mots qui peuvent être distinctifs par rapport au texte écrit par l'homme.


En outre, il existe une évaluation humaine, où dans certains cas, des experts humains peuvent examiner le texte et déterminer s'il a été écrit par un humain en fonction de son expérience et de son expertise.


Vous pouvez également utiliser un outil appelé analyse statistique pour vérifier le texte généré par l'IA pour certaines caractéristiques statistiques telles que la fréquence des caractères et des mots et la distribution des n-grammes qui sont différentes du texte écrit par l'homme.


Vous pouvez identifier le texte généré par l'IA dans du texte nouveau et invisible à l'aide du modèle.


Enfin, la technologie de l'IA évolue rapidement et il existe de nouvelles méthodes de génération de texte qui ne sont pas toujours infaillibles.


Résultat : le classificateur considère que le texte est peut-être généré par l'IA. 👿


Je n'ai pas réussi à tromper le système.

5. Vérifiez mes articles précédents

J'ai utilisé l'outil pour vérifier plusieurs de mes articles :


ChatGPT : le professeur surprenant d'un programmeur senior de plus de 25 ans


Résultat : le classificateur considère que le texte est peu susceptible d'être généré par l'IA. 😃


Expliquer en 5 niveaux de difficulté : ChatGPT


Résultat : le classificateur considère que le texte n'est pas clair s'il est généré par l'IA.


C'est exact. J'ai "parlé" à ChatGPT pour avoir des idées. 😳


Pourquoi GitHub Copilot n'est pas une menace pour votre travail


Résultat : le classificateur considère que le texte est très peu susceptible d'être généré par l'IA. 😃


☝️ Vous pouvez essayer vos propres articles !

Dernières pensées

C'est encore un autre outil incroyable d' Open.ai .


La page officielle contient des détails très intéressants sur l'exactitude, le déterminisme et l'évaluation.