paint-brush
Por que a integração de linguagens de poucos recursos em LLMs é essencial para uma IA responsávelpor@konkiewicz
791 leituras
791 leituras

Por que a integração de linguagens de poucos recursos em LLMs é essencial para uma IA responsável

por Magdalena Konkiewicz5m2024/04/27
Read on Terminal Reader

Muito longo; Para ler

O artigo explora os desafios enfrentados pelas línguas com poucos recursos no acesso a grandes modelos linguísticos (LLMs) e apresenta estratégias inovadoras, como a criação de conjuntos de dados de ajuste fino de alta qualidade, para melhorar o desempenho do LLM, concentrando-se particularmente no suaíli como estudo de caso. Estes avanços contribuem para um ecossistema de IA mais inclusivo, apoiando a diversidade linguística e a acessibilidade.
featured image - Por que a integração de linguagens de poucos recursos em LLMs é essencial para uma IA responsável
Magdalena Konkiewicz HackerNoon profile picture
0-item

Linguagens de Baixos Recursos (LRLs) em Grandes Modelos de Linguagens (LLMs)

Nos últimos anos, o surgimento de Large Language Models (LLMs) trouxe mudanças significativas nas rotinas diárias dos consumidores. Os indivíduos agora podem realizar uma ampla gama de tarefas, como recuperar informações, redigir textos e refinar documentos por meio dessas poderosas ferramentas de linguagem. Esta integração dos LLMs na vida diária resultou em aumentos notáveis na produtividade, tanto no trabalho como nos empreendimentos pessoais.


No entanto, é importante reconhecer que nem todos os consumidores experimentaram estes benefícios igualmente. Na verdade, um número considerável de pessoas em todo o mundo que falam línguas menos comuns não são capazes de interagir com LLMs, principalmente devido à inadequação dos modelos linguísticos concebidos para estas línguas específicas. Com 7.000 idiomas falados atualmente no mundo, os maiores LLMs multilíngues foram treinados usando apenas menos de cem idiomas, deixando assim muitos idiomas e pessoas completamente para trás.


O suporte a idiomas diferentes do inglês requer fontes de dados abundantes e de alta qualidade, que podem ser difíceis de encontrar e acessar. E não só esses modelos têm pior desempenho, mas também foi relatado por Universidade Brown que são mais propensos a dar respostas antiéticas, tornando-os mais vulneráveis a ataques maliciosos.


Por que temos idiomas sub-representados nos LLMs?

O desempenho de LLMs adaptados para línguas de poucos recursos (LRL) é dificultado por vários desafios importantes.


Em primeiro lugar, os modelos básicos de muitos LLMs baseiam-se em dados extraídos da Internet, que muitas vezes carecem de uma cobertura abrangente dos LRLs. O gráfico abaixo mostra uma distribuição de dados pela Internet divididos em grupos de idiomas. Embora as linguagens mais comuns tenham centenas de GB de dados potencialmente disponíveis para modelos de treinamento, as linguagens na parte final do gráfico possuem apenas dados disponíveis na faixa de centenas de megabytes.

A longa cauda do multilinguismo, poucas línguas com muitos recursos e muitas línguas escassamente povoadas. - Imagem publicada originalmente em https://arxiv.org/pdf/1911.02116.pdf


Esta limitação é ainda ampliada pela ausência de conjuntos de dados de instruções ajustados para muitos LRLs. Um conjunto de dados de instrução consiste em um conjunto de perguntas emparelhado com respostas ideais e é uma parte crucial do treinamento LLM – neste caso, em idiomas específicos. É assim que o modelo aprende a seguir as instruções e, sem esse recurso, os modelos só são capazes de prever a próxima palavra na sequência, em vez de ajudar os humanos com questões complexas e tarefas de resolução de problemas.


O acima exposto é causado pelo fato de que os LLMs são treinados em etapas sequenciais. O primeiro passo é aprender o idioma lendo uma grande quantidade de texto não anotado, o que dá ao modelo a capacidade de prever o próximo mundo na sequência. A segunda etapa é adaptar esse comportamento preditivo para seguir instruções específicas, como responder perguntas, escrever resumos ou extrair dados. É por isso que o ajuste fino dos conjuntos de dados é tão importante, já que sua qualidade determinará ainda mais a capacidade do LLM de ajudar os usuários nas tarefas necessárias.

Na seção seguinte, apresentaremos um método para criar um conjunto de dados de alta qualidade para suaíli que pode ser usado para ajustar o LLM para este idioma. O método pode ser aplicado a qualquer linguagem de poucos recursos.


Pipeline inovador para coletar dados para LRLs

O suaíli é uma língua falada por mais de 200 milhões de pessoas em 14 países africanos diferentes e é a língua nacional oficial na Tanzânia, no Quénia, no Uganda e na República Democrática do Congo. Ela pertence ao grupo de linguagens de poucos recursos e é um exemplo de linguagem que não possui um conjunto de dados de instruções pronto para uso para ajuste fino do LLM.



Em geral, existem três abordagens para criar um conjunto de dados de ajuste fino para uma linguagem. A primeira é a geração direta de um conjunto de dados pelos avaliadores, neste caso, especialistas em idiomas, o que exige o desenvolvimento de perguntas e respostas ideais no idioma desejado. Isto pode ser um desafio para a língua suaíli porque os avaliadores necessitam de ser especialistas de alto nível e o processo é geralmente dispendioso.

Outra solução potencial é pegar um conjunto de dados de instruções existente em inglês e traduzi-lo para suaíli. Isto poderia ser feito por tradutores que falam suaíli e inglês, mas também pode consumir muito tempo e recursos. Um tradutor automático poderia ser usado, no entanto, isso normalmente resulta em resultados insuficientes ou de baixa qualidade.


Outra solução combina tradução automatizada com validação humana, oferecendo uma abordagem econômica e escalonável, o que é fundamental para garantir que os modelos LRL sejam precisos, reflitam os costumes e normas locais e sejam úteis para as comunidades que os utilizarão. Este método utiliza o melhor tradutor automático disponível de suaíli para inglês e depois pede aos falantes nativos de suaíli que filtrem exemplos que não atendem aos padrões de qualidade.


Toloka empreendeu recentemente um projeto de desenvolvimento, onde criou um conjunto de dados de ajuste fino de 11.000 para suaíli a partir dos 15.000 originais Conjunto de dados Dolly . Cada ponto de dados que consiste em um prompt e uma resposta foi traduzido do inglês para o suaíli usando tradução automática, resultando inicialmente em 15.000 pares de perguntas e respostas em suaíli. Este conjunto de dados foi ainda mais reduzido pedindo aos falantes nativos que removessem pares com baixa qualidade, deixando assim um conjunto de dados suaíli ajustado com 11.000 instâncias.




O conjunto de dados foi então usado para melhorar mT5 , um dos modelos de idioma multilíngue de melhor desempenho para suaíli, que demonstrou melhorias significativas de desempenho para esse idioma. O conjunto de dados ajustado aumentou a precisão e a pontuação f (uma medida de desempenho preditivo) para tarefas de classificação, mas, mais importante, aumentou significativamente ROUGE , ou Recall-Oriented Understudy for Gisting Evaluation, que é um conjunto de métricas usadas para avaliar software de resumo automático e tradução automática em PNL, e chrF++, pontuação F de n-grama de caractere (chrF), em tarefas generativas onde o modelo deve responder a questões abertas. Esta experiência mostra o potencial para melhorar o desempenho do LLM em LRLs e, portanto, abre um caminho para a construção de modelos verdadeiramente multilíngues.


Criando um ecossistema de IA mais inclusivo

À medida que os desenvolvedores e as organizações se esforçam para criar um ecossistema de IA mais inclusivo, a avaliação torna-se ainda mais crítica, assim como o envolvimento humano na formação de LLMs. O recente lançamento da Cohere Aya , um modelo linguístico que suporta mais de cem idiomas, incluindo o suaíli e outros LRLs, exemplifica este compromisso. Abordar a escassez de dados e melhorar o desempenho dos modelos para LRLs é um passo importante para a construção de sistemas de IA mais inclusivos e responsáveis que sirvam diversas comunidades linguísticas em todo o mundo.