paint-brush
Como detectar texto gerado por inteligência artificialpor@mcsee
9,323 leituras
9,323 leituras

Como detectar texto gerado por inteligência artificial

por Maximiliano Contieri6m2023/02/03
Read on Terminal Reader

Muito longo; Para ler

Um teste de Turing em testes de Turing TL;DR: Uma nova ferramenta para detectar I.A. textos gerados.ME: Explique como detectar o texto gerado por IAChatGPT: A detecção de texto gerado por IA pode ser desafiadora, mas existem vários métodos que podem ser usados.
featured image - Como detectar texto gerado por inteligência artificial
Maximiliano Contieri HackerNoon profile picture

Um teste de Turing em testes de Turing

TL;DR: Uma nova ferramenta para detectar textos gerados por IA.


Geradores de texto e detectores de texto são como um jogo de 😾gato e rato🐁.


🤖Ferramentas de Inteligência Artificial e especialmente modelos GPT estão substituindo empregos humanos .


👨‍💻Mesmo programadores ruins serão substituídos em breve.


Havia várias ferramentas de plágio de inteligência artificial por aí.


Agora, o popular modelo ChatGPT da open.ai lançou o seu próprio.


O post completo do blog está aqui:

https://openai.com/blog/new-ai-classifier-for-indicating-ai-written-text/


Vamos tentar:

1. Confira minha explicação original

(Escrevi isso por experiência própria sem ler a explicação do ChatGPT )


Como detectar o texto AI gerado.


A Inteligência Artificial pode gerar textos usando modelos pré-treinados.


Esses modelos são baseados em textos de domínio público e podem criar conhecimento ao prever relações entre conceitos.


Textos sintéticos gerados por inteligência artificial fornecem fatos sem citar as fontes. Às vezes, eles não são muito profundos nas explicações, a menos que exijamos refinamento.


Uma maneira simples de detectar os textos gerados é comparando vários geradores conhecidos e solicitando que eles escrevam o texto desejado.


Outra dica seria adicionar alguns erros gramaticais para ver se a ferramenta entende seu conjunto de dados, já que apenas humanos cometem erros.


Se você ler muitos textos gerados por inteligência artificial, notará que eles usam os mesmos padrões gramaticais.


Você pode instruir os geradores a atingir outros públicos, usar vozes ativas, etc.


Você pode então medir a distância das palavras, palavras comuns, etc.


Depois de compará-lo com um limite previsto, você pode verificar se temos certeza de que o texto não foi gerado por um ser humano.


Eu escrevi sozinho o texto acima, e depois de usar várias ferramentas de assistente de escrita como HemingwayApp ou Grammarly, coloquei na novíssima ferramenta aqui .


O resultado: o classificador considera o texto como improvável gerado por IA. 😺


Passei no teste de Turing. 😺🧠


Sendo a escala:

"Muito improvável de ser gerado por IA" corresponde a um limite de classificador de <0,1. Cerca de 5% do texto escrito por humanos e 2% do texto gerado por IA do nosso conjunto de desafios tem esse rótulo.


"É improvável que seja gerado por IA" corresponde a um limite do classificador entre 0,1 e 0,45. Cerca de 15% do texto escrito por humanos e 10% do texto gerado por IA do nosso conjunto de desafios tem esse rótulo.


"Não está claro se é AI escrito" corresponde a um limite de classificador entre 0,45 e 0,9. Cerca de 50% do texto escrito por humanos e 34% do texto gerado por IA do nosso conjunto de desafios tem esse rótulo.


"Possivelmente gerado por IA" corresponde a um limite de classificador entre 0,9 e 0,98. Cerca de 21% do texto escrito por humanos e 28% do texto gerado por IA do nosso conjunto de desafios tem esse rótulo.


"Provavelmente gerado por IA" corresponde a um limite de classificador > 0,98. Cerca de 9% do texto escrito por humanos e 26% do texto gerado por IA do nosso conjunto de desafios tem esse rótulo.

2. Verifique a explicação do ChatGPT

EU: Explique como detectar o texto AI gerado


ChatGPT: A detecção de texto gerado por IA pode ser desafiadora, mas existem vários métodos que podem ser usados:


Reconhecimento de padrões: o texto gerado por IA geralmente exibe padrões na estrutura da frase, no uso da linguagem e na escolha de palavras que podem ser distintos em comparação com o texto escrito por humanos.


Análise estatística: o texto gerado por IA pode ser analisado para certos recursos estatísticos, como frequência de caracteres e palavras e distribuição de n-gramas, que são diferentes do texto escrito por humanos.


Avaliação humana: em alguns casos, especialistas humanos podem revisar o texto e determinar se ele foi escrito por um humano ou gerado por IA com base em sua experiência e especialização.


Uso de modelos de IA: os modelos de IA podem ser treinados para identificar texto gerado por IA usando um conjunto de dados rotulados de texto escrito por humanos e gerado por IA. O modelo pode então ser usado para identificar texto gerado por IA em texto novo e não visto.


Vale a pena notar que a tecnologia AI continua a evoluir e novos métodos para gerar texto estão sendo desenvolvidos, portanto, esses métodos podem nem sempre ser infalíveis.


Bela explicação. Vamos usar a ferramenta novamente.


Resultado: o classificador considera que o texto possivelmente foi gerado por IA.😂


O modelo tem precisão > 0,9 que a Inteligência Artificial o gerou.


Isso era esperado.

3. Verifique a explicação da Wikipédia

Vamos recortar e colar este artigo .


“Geração de linguagem natural (NLG) é um processo de software que produz saída de linguagem natural. Uma pesquisa amplamente citada dos métodos NLG descreve o NLG como "o subcampo da inteligência artificial e linguística computacional que se preocupa com a construção de sistemas de computador que podem produzir textos compreensíveis em inglês ou outras línguas humanas a partir de alguma representação não linguística subjacente da informação" .


Embora seja amplamente aceito que a saída de qualquer processo NLG seja texto, há algum desacordo sobre se as entradas de um sistema NLG precisam ser não linguísticas. As aplicações comuns dos métodos NLG incluem a produção de vários relatórios, por exemplo, relatórios meteorológicos e de pacientes; legendas de imagens; e chatbots.


O NLG automatizado pode ser comparado ao processo que os humanos usam quando transformam ideias em escrita ou fala. Os psicolinguistas preferem o termo produção de linguagem para esse processo, que também pode ser descrito em termos matemáticos ou modelado em um computador para pesquisa psicológica.


Os sistemas NLG também podem ser comparados a tradutores de linguagens de computador artificiais, como descompiladores ou transpiladores, que também produzem código legível por humanos gerado a partir de uma representação intermediária.


As linguagens humanas tendem a ser consideravelmente mais complexas e permitem muito mais ambiguidade e variedade de expressão do que as linguagens de programação, o que torna o NLG mais desafiador.”


Resultado: o classificador considera que o texto não está claro se for gerado por IA. 📚


A confiança está entre 0,45 e 0,9.


Olhando para ohistórico da página, vemos vários humanos e nem tantos bots.


Minha conclusão é que o ChatGPT foi alimentado parcialmente com o texto, então está medindo o overfitting .

4. Verifique o ChatGPT com edição humana

Peguei o texto gerado pelo ChatGPT e editei eu mesmo com minhas ferramentas de edição.


A detecção de texto gerado por IA pode ser desafiadora, mas você pode usar vários métodos.


Você também pode usar modelos de IA treinando para identificar texto gerado por IA usando um conjunto de dados rotulados de texto escrito por humanos e gerado por IA.


Você pode usar o reconhecimento de padrões, pois o texto gerado por IA geralmente exibe padrões na estrutura da frase, no uso do idioma e na escolha de palavras que podem ser distintos em comparação com o texto escrito por humanos.


Além disso, há uma avaliação humana, em que, em alguns casos, especialistas humanos podem revisar o texto e determinar se ele foi escrito por um humano com base em sua experiência e especialização.


Você também pode usar uma ferramenta chamada análise estatística para verificar o texto gerado por IA para certos recursos estatísticos, como frequência de caracteres e palavras e distribuição de n-gram, que são diferentes do texto escrito por humanos.


Você pode identificar texto gerado por IA em texto novo e não visto usando o modelo.


Por fim, a tecnologia de IA está evoluindo rapidamente e existem novos métodos para gerar texto que nem sempre são infalíveis.


Resultado: o classificador considera o texto possivelmente gerado por IA. 👿


Não fui capaz de enganar o sistema.

5. Confira meus artigos anteriores

Eu usei a ferramenta para verificar muitos dos meus artigos:


ChatGPT: o professor surpreendente de um programador sênior de +25 anos


Resultado: o classificador considera o texto como improvável gerado por IA. 😃


Explique em 5 níveis de dificuldade: ChatGPT


Resultado: o classificador considera que o texto não está claro se for gerado por IA.


É preciso. "Conversei" com o ChatGPT para tirar algumas ideias. 😳


Por que o GitHub Copilot não é uma ameaça ao seu trabalho


Resultado: o classificador considera muito improvável que o texto seja gerado por IA. 😃


☝️ Você pode experimentar seus próprios artigos!

Pensamentos finais

Esta é mais uma ferramenta incrível da Open.ai.


A página oficial tem alguns detalhes muito interessantes sobre precisão, determinismo e avaliação.