paint-brush
Pourquoi l'intégration de langages à faibles ressources dans les LLM est essentielle pour une IA responsablepar@konkiewicz
791 lectures
791 lectures

Pourquoi l'intégration de langages à faibles ressources dans les LLM est essentielle pour une IA responsable

par Magdalena Konkiewicz5m2024/04/27
Read on Terminal Reader

Trop long; Pour lire

L'article explore les défis rencontrés par les langues à faibles ressources pour accéder aux grands modèles linguistiques (LLM) et présente des stratégies innovantes, telles que la création d'ensembles de données de réglage fin de haute qualité, pour améliorer les performances des LLM, en se concentrant particulièrement sur le swahili comme étude de cas. Ces avancées contribuent à un écosystème d’IA plus inclusif, soutenant la diversité linguistique et l’accessibilité.
featured image - Pourquoi l'intégration de langages à faibles ressources dans les LLM est essentielle pour une IA responsable
Magdalena Konkiewicz HackerNoon profile picture
0-item

Langages à faibles ressources (LRL) dans les grands modèles linguistiques (LLM)

Ces dernières années, l’émergence des Large Language Models (LLM) a entraîné des changements importants dans les routines quotidiennes des consommateurs. Les individus peuvent désormais entreprendre un large éventail de tâches, telles que la récupération d'informations, la rédaction de textes et l'affinage de documents grâce à ces puissants outils linguistiques. Cette intégration des LLM dans la vie quotidienne a entraîné une augmentation notable de la productivité, tant au travail que dans les efforts personnels.


Cependant, il est important de reconnaître que tous les consommateurs n’ont pas bénéficié de la même manière de ces avantages. En effet, un nombre considérable de personnes dans le monde qui parlent des langues moins courantes ne sont pas en mesure d'interagir avec les LLM, principalement en raison de l'inadéquation des modèles linguistiques conçus pour ces langues spécifiques. Avec 7 000 langues actuellement parlées dans le monde, les plus grands LLM multilingues ont été formés en utilisant seulement moins d'une centaine de langues, laissant ainsi de nombreuses langues et personnes complètement de côté.


La prise en charge de langues autres que l’anglais nécessite des sources de données abondantes et de haute qualité, qui peuvent être difficiles à trouver et à accéder. Et non seulement ces modèles fonctionnent moins bien, mais cela a également été rapporté par Université Brown qu'ils sont plus susceptibles de donner des réponses contraires à l'éthique, ce qui les rend plus vulnérables aux attaques malveillantes.


Pourquoi avons-nous des langues sous-représentées dans les LLM ?

La performance des LLM adaptés aux langages à faibles ressources (LRL) est entravée par plusieurs défis clés.


Premièrement, les modèles de base de nombreux LLM reposent sur des données extraites d’Internet, qui manque souvent d’une couverture complète des LRL. Le graphique ci-dessous montre une répartition des données sur Internet divisée en groupes linguistiques. Alors que les langages les plus courants disposent de centaines de Go de données potentiellement disponibles pour les modèles de formation, les langages situés à la fin du graphique ne disposent que de données disponibles dans une plage de centaines de mégaoctets.

La longue traîne du multilinguisme, quelques langues riches en ressources et de nombreuses langues peu peuplées. - Image initialement publiée sur https://arxiv.org/pdf/1911.02116.pdf


Cette limitation est encore amplifiée par l’absence d’ensembles de données d’instructions affinées pour de nombreux LRL. Un ensemble de données d'instruction se compose d'un ensemble de questions associées à des réponses idéales et constitue un élément crucial de la formation LLM - dans ce cas, dans des langues spécifiques. C'est ainsi que le modèle apprend à suivre des instructions, et sans cet atout, les modèles ne sont capables que de prédire le mot suivant dans la séquence au lieu d'aider les humains à résoudre des questions complexes et des tâches de résolution de problèmes.


Ce qui précède est dû au fait que les LLM sont formés par étapes séquentielles. La première étape consiste à apprendre la langue en lisant une grande quantité de texte non annoté, ce qui donne au modèle la capacité de prédire le monde suivant dans la séquence. La deuxième étape consiste à adapter ce comportement prédictif pour suivre des instructions spécifiques, telles que répondre à des questions, rédiger des résumés ou extraire des données. C'est pourquoi le réglage fin des ensembles de données est d'une telle importance, car leur qualité déterminera davantage la capacité du LLM à aider les utilisateurs dans les tâches requises.

Dans la section suivante, nous présenterons une méthode pour créer un ensemble de données de haute qualité pour le swahili qui peut être utilisé pour affiner le LLM pour cette langue. La méthode peut être appliquée à n’importe quelle langue à faibles ressources.


Pipeline innovant pour collecter des données pour les LRL

Le swahili est une langue parlée par plus de 200 millions de personnes dans 14 pays africains différents et est la langue nationale officielle en Tanzanie, au Kenya, en Ouganda et en République démocratique du Congo. Il appartient au groupe des langages à faibles ressources et constitue un exemple de langage qui ne dispose pas d'un ensemble de données d'instructions prêtes à l'emploi pour le réglage fin du LLM.



En général, trois approches existent pour créer un ensemble de données de réglage fin pour une langue. La première est la génération directe d’un ensemble de données par des évaluateurs, en l’occurrence des experts en langues, ce qui nécessite de développer à la fois des questions et des réponses idéales dans la langue souhaitée. Cela peut s’avérer difficile pour la langue swahili, car les évaluateurs doivent être des experts de haut niveau et le processus est généralement coûteux.

Une autre solution potentielle consiste à prendre un ensemble de données d’instructions existant en anglais et à le traduire en swahili. Cela pourrait être fait par des traducteurs parlant à la fois le swahili et l’anglais, mais cela peut également demander beaucoup de temps et de ressources. Un traducteur automatique peut être utilisé, mais cela entraîne généralement des résultats insuffisants ou de mauvaise qualité.


Une autre solution combine traduction automatisée et validation humaine, offrant une approche rentable et évolutive, essentielle pour garantir que les modèles LRL sont précis, reflètent les coutumes et normes locales et sont utiles aux communautés qui les utiliseront. Cette méthode utilise le meilleur traducteur automatique disponible du swahili vers l'anglais, puis demande aux locuteurs natifs du swahili de filtrer les exemples qui ne répondent pas aux normes de qualité.


Toloka a récemment entrepris un projet de développement dans le cadre duquel ils ont créé un ensemble de données de 11 000 mises au point pour le swahili à partir des 15 000 données originales. Ensemble de données Dolly . Chaque point de données composé d'une invite et d'une réponse a été traduit de l'anglais vers le swahili à l'aide d'une traduction automatique, ce qui a initialement donné lieu à 15 000 paires de questions-réponses en swahili. Cet ensemble de données a été encore réduit en demandant aux locuteurs natifs de supprimer les paires de faible qualité, laissant ainsi un ensemble de données swahili affiné avec 11 000 instances.




L'ensemble de données a ensuite été utilisé pour améliorer mT5 , l'un des modèles linguistiques multilingues les plus performants pour le swahili, qui a démontré des améliorations significatives des performances pour cette langue. L'ensemble de données affiné a amélioré la précision et le score f (une mesure des performances prédictives) pour les tâches de classification, mais plus important encore, il a considérablement augmenté. ROUGE , ou Recall-Oriented Understudy for Gisting Evaluation, qui est un ensemble de mesures utilisées pour évaluer les logiciels de synthèse automatique et de traduction automatique en PNL, et chrF++, Caractère n-gramme F-score (chrF), dans des tâches génératives où le modèle doit répondre à des questions ouvertes. Cette expérience montre le potentiel d'amélioration des performances des LLM dans les LRL et ouvre donc la voie à la construction de modèles véritablement multilingues.


Créer un écosystème d'IA plus inclusif

Alors que les développeurs et les organisations s’efforcent de créer un écosystème d’IA plus inclusif, l’évaluation devient encore plus critique, tout comme l’implication humaine dans la formation des LLM. Le récent lancement par Cohere de Aya , un modèle linguistique qui prend en charge plus d'une centaine de langues, dont le swahili et d'autres LRL, illustre cet engagement. Remédier à la rareté des données et améliorer les performances des modèles pour les LRL constitue une étape importante vers la création de systèmes d’IA plus inclusifs et responsables qui servent diverses communautés linguistiques dans le monde entier.