paint-brush
Cómo detectar texto generado por inteligencia artificialpor@mcsee
9,323 lecturas
9,323 lecturas

Cómo detectar texto generado por inteligencia artificial

por Maximiliano Contieri6m2023/02/03
Read on Terminal Reader

Demasiado Largo; Para Leer

Una prueba de Turing sobre las pruebas de Turing TL; DR: una nueva herramienta para detectar I.A. Generado texts.ME: Explique cómo detectar AI text addedChatGPT: La detección de texto generado por AI puede ser un desafío, pero hay varios métodos que se pueden usar.
featured image - Cómo detectar texto generado por inteligencia artificial
Maximiliano Contieri HackerNoon profile picture

Una prueba de Turing sobre las pruebas de Turing

TL; DR: una nueva herramienta para detectar textos generados por IA.


Los generadores de texto y los detectores de texto son como un juego de 😾gato y ratón🐁.


🤖Las herramientas de Inteligencia Artificial y especialmente los modelos GPT están reemplazando los trabajos humanos .


👨‍💻Incluso los malos programadores serán reemplazados pronto.


Había varias herramientas de plagio de inteligencia artificial por ahí.


Ahora, el popular modelo ChatGPT de open.ai lanzó el suyo propio.


La publicación completa del blog está aquí:

https://openai.com/blog/nuevo-clasificador-de-ai-para-indicar-texto-escrito-de-ai/


Vamos a intentarlo:

1. Verifique mi explicación original

(Escribí esto desde mi propia experiencia sin leer la explicación de ChatGPT )


Cómo detectar texto AI generado.


La Inteligencia Artificial puede generar textos usando modelos pre-entrenados.


Estos modelos se basan en textos de dominio público y pueden crear conocimiento mediante la predicción de relaciones entre conceptos.


Los textos sintéticos generados por inteligencia artificial dan hechos sin citar las fuentes. A veces no son muy profundos en las explicaciones a no ser que exijamos refinamiento.


Una forma sencilla de detectar textos generados es comparar varios generadores conocidos y pedirles que escriban el texto deseado.


Otra sugerencia sería agregar algunos errores gramaticales para ver si la herramienta comprende su conjunto de datos, ya que solo los humanos cometen errores.


Si lees muchos textos generados por inteligencia artificial, notarás que usan los mismos patrones gramaticales.


Puede indicar a los generadores que se dirijan a otras audiencias, usen voces activas, etc.


A continuación, puede medir la distancia de las palabras, las palabras comunes, etc.


Después de compararlo con un umbral predicho, puede verificar qué tan seguros estamos de que el texto no fue generado por un ser humano.


Yo solo escribí el texto anterior, y después de usar varias herramientas auxiliares de escritura como HemingwayApp o Grammarly, lo puse en la nueva herramienta aquí .


El resultado: el clasificador considera que es improbable que el texto haya sido generado por IA. 😺


Pasé la prueba de Turing. 😺🧠


Siendo la escala:

"Es muy poco probable que sea generado por IA" corresponde a un umbral de clasificador de <0,1. Alrededor del 5 % del texto escrito por humanos y el 2 % del texto generado por IA de nuestro conjunto de desafíos tiene esta etiqueta.


"Improbable que sea generado por IA" corresponde a un umbral de clasificador entre 0,1 y 0,45. Aproximadamente el 15 % del texto escrito por humanos y el 10 % del texto generado por IA de nuestro conjunto de desafíos tiene esta etiqueta.


"No está claro si está escrito en IA" corresponde a un umbral clasificador entre 0,45 y 0,9. Alrededor del 50 % del texto escrito por humanos y el 34 % del texto generado por IA de nuestro conjunto de desafíos tiene esta etiqueta.


"Posiblemente generado por IA" corresponde a un umbral de clasificador entre 0,9 y 0,98. Alrededor del 21 % del texto escrito por humanos y el 28 % del texto generado por IA de nuestro conjunto de desafíos tiene esta etiqueta.


"Probablemente generado por IA" corresponde a un umbral de clasificador > 0,98. Alrededor del 9 % del texto escrito por humanos y el 26 % del texto generado por IA de nuestro conjunto de desafíos tiene esta etiqueta.

2. Verifique la explicación de ChatGPT

YO: Explicar cómo detectar texto AI generado


ChatGPT: la detección de texto generado por IA puede ser un desafío, pero existen varios métodos que se pueden usar:


Reconocimiento de patrones: el texto generado por IA a menudo muestra patrones en la estructura de las oraciones, el uso del lenguaje y la elección de palabras que pueden ser distintivos en comparación con el texto escrito por humanos.


Análisis estadístico: el texto generado por IA se puede analizar en busca de ciertas características estadísticas, como la frecuencia de caracteres y palabras, y la distribución de n-gramas, que son diferentes del texto escrito por humanos.


Evaluación humana: en algunos casos, los expertos humanos pueden revisar el texto y determinar si fue escrito por un humano o generado por IA en función de su experiencia y conocimientos.


Uso de modelos de IA: los modelos de IA se pueden entrenar para identificar texto generado por IA utilizando un conjunto de datos etiquetados de texto escrito por humanos y generado por IA. Luego, el modelo se puede usar para identificar texto generado por IA en texto nuevo e invisible.


Vale la pena señalar que la tecnología de IA continúa evolucionando y se están desarrollando nuevos métodos para generar texto, por lo que es posible que estos métodos no siempre sean infalibles.


Buena explicación. Usemos la herramienta de nuevo.


Resultado: el clasificador considera que el texto posiblemente haya sido generado por IA.😂


El modelo tiene una precisión > 0.9 que la Inteligencia Artificial lo generó.


Eso era de esperar.

3. Revisa la explicación de Wikipedia

Cortemos y peguemos este artículo .


“La generación de lenguaje natural (NLG) es un proceso de software que produce una salida de lenguaje natural. Una encuesta ampliamente citada sobre los métodos de NLG describe a NLG como "el subcampo de la inteligencia artificial y la lingüística computacional que se ocupa de la construcción de sistemas informáticos que pueden producir textos comprensibles en inglés u otros idiomas humanos a partir de alguna representación no lingüística subyacente de la información". .


Si bien se acepta ampliamente que la salida de cualquier proceso NLG es texto, existe cierto desacuerdo sobre si las entradas de un sistema NLG deben ser no lingüísticas. Las aplicaciones comunes de los métodos NLG incluyen la producción de varios informes, por ejemplo, informes meteorológicos y de pacientes; leyendas de imágenes; y chatbots.


NLG automatizado se puede comparar con el proceso que usan los humanos cuando convierten ideas en escritura o habla. Los psicolingüistas prefieren el término producción del lenguaje para este proceso, que también puede describirse en términos matemáticos o modelarse en una computadora para la investigación psicológica.


Los sistemas NLG también se pueden comparar con traductores de lenguajes informáticos artificiales, como descompiladores o transpiladores, que también producen código legible por humanos generado a partir de una representación intermedia.


Los lenguajes humanos tienden a ser considerablemente más complejos y permiten mucha más ambigüedad y variedad de expresión que los lenguajes de programación, lo que hace que NLG sea más desafiante”.


Resultado: el clasificador considera que el texto no está claro si está generado por IA. 📚


La confianza está entre 0,45 y 0,9.


Mirando elhistorial de la página, vemos varios humanos y no tantos bots.


Mi conclusión es que ChatGPT se alimentó parcialmente con el texto, por lo que está midiendo el sobreajuste .

4. Verifique ChatGPT con edición humana

Tomé el texto generado por ChatGPT y lo edité yo mismo con mis herramientas de edición.


La detección de texto generado por IA puede ser un desafío, pero puede usar varios métodos.


También puede usar modelos de IA entrenando para identificar texto generado por IA mediante un conjunto de datos etiquetados de texto escrito por humanos y generado por IA.


Puede usar el reconocimiento de patrones, ya que el texto generado por IA a menudo muestra patrones en la estructura de las oraciones, el uso del lenguaje y la elección de palabras que pueden ser distintivos en comparación con el texto escrito por humanos.


Además, existe una evaluación humana, en la que, en algunos casos, expertos humanos pueden revisar el texto y determinar si fue escrito por un humano en función de su experiencia y conocimientos.


También puede usar una herramienta llamada análisis estadístico para verificar el texto generado por IA en busca de ciertas características estadísticas, como la frecuencia de caracteres y palabras, y la distribución de n-gramas que son diferentes del texto escrito por humanos.


Puede identificar texto generado por IA en texto nuevo y no visto utilizando el modelo.


Finalmente, la tecnología de inteligencia artificial está evolucionando rápidamente y existen nuevos métodos para generar texto que no siempre son infalibles.


Resultado: el clasificador considera que el texto posiblemente haya sido generado por IA. 👿


No pude engañar al sistema.

5. Revisa mis artículos anteriores

Usé la herramienta para revisar muchos de mis artículos:


ChatGPT: el maestro sorprendente de un programador senior de +25 años


Resultado: el clasificador considera que es improbable que el texto haya sido generado por IA. 😃


Explicar en 5 niveles de dificultad: ChatGPT


Resultado: el clasificador considera que el texto no está claro si está generado por IA.


es preciso "Hablé" con ChatGPT para obtener algunas ideas. 😳


Por qué GitHub Copilot no es una amenaza para su trabajo


Resultado: el clasificador considera que es muy poco probable que el texto haya sido generado por IA. 😃


☝️ ¡Puedes probar tus propios artículos!

Pensamientos finales

Esta es otra herramienta increíble de Open.ai.


La Página Oficial tiene algunos detalles muy interesantes sobre la precisión, el determinismo y la evaluación.