Détecter les erreurs de GPT-4 avec CriticGPT : Une Nouvelle Ère de l’IA

Avec l’évolution rapide des modèles d’intelligence artificielle, la précision et la complexité des réponses générées par des systèmes comme GPT-4 deviennent de plus en plus sophistiquées. Cependant, cette sophistication accrue rend également plus difficile la détection des erreurs pour les humains. Pour relever ce défi, OpenAI a développé CriticGPT, un modèle basé sur GPT-4, conçu pour critiquer et identifier les erreurs dans les réponses de ChatGPT.

CriticGPT : Un Allié Précieux pour la Formation par RLHF

Le modèle GPT-4, qui alimente ChatGPT, est conçu pour être utile et interactif grâce à une méthode appelée “Reinforcement Learning from Human Feedback” (RLHF). Cette méthode repose sur la collecte de comparaisons où des humains évaluent différentes réponses de ChatGPT. Avec les progrès réalisés dans le raisonnement et le comportement des modèles, les erreurs de ChatGPT deviennent plus subtiles, rendant la tâche des humains de plus en plus difficile.

CriticGPT a été entraîné pour rédiger des critiques qui mettent en lumière les inexactitudes dans les réponses de ChatGPT. Bien que les suggestions de CriticGPT ne soient pas toujours correctes, elles aident les formateurs à détecter beaucoup plus de problèmes que s’ils travaillaient seuls.

thibault monteiro criticgpt
thibault monteiro criticgpt

Méthodologie et Entraînement

CriticGPT a été formé de manière similaire à ChatGPT avec RLHF, mais avec une particularité : il a été exposé à un grand nombre d’entrées contenant des erreurs qu’il devait critiquer. Les humains ont inséré manuellement ces erreurs dans le code généré par ChatGPT, puis ont rédigé des retours d’information comme s’ils avaient détecté ces erreurs.

Les critiques de CriticGPT ont été préférées par les formateurs dans 63% des cas sur des bugs naturels, car le nouveau modèle produit moins de “nitpicks” (petites plaintes inutiles) et hallucine moins souvent des problèmes. En utilisant une recherche supplémentaire pendant le temps de test contre le modèle de récompense des critiques, OpenAI a pu générer des critiques plus longues et plus complètes.

thibault monteiro humain et critigpt
thibault monteiro humain et critigpt

Limites et Défis

Malgré ses avantages, CriticGPT présente encore des limitations :

• Il a été formé sur des réponses relativement courtes de ChatGPT. Pour superviser les agents futurs, il faudra développer des méthodes capables d’aider les formateurs à comprendre des tâches longues et complexes.

• Les modèles hallucinent encore parfois, et les formateurs peuvent faire des erreurs de labellisation après avoir vu ces hallucinations.

• Les erreurs réelles peuvent être dispersées à travers plusieurs parties d’une réponse. Le travail actuel d’OpenAI se concentre sur les erreurs qui peuvent être pointées en un seul endroit.

thibault monteiro bugs criticgpt
thibault monteiro bugs criticgpt

Perspectives d’Avenir

Pour aligner les systèmes d’IA de plus en plus complexes, il faut des outils améliorés. La recherche sur CriticGPT montre que l’application du RLHF à GPT-4 a le potentiel d’aider les humains à produire de meilleures données RLHF pour GPT-4. OpenAI prévoie d’étendre ce travail et de le mettre en pratique pour améliorer la supervision et la formation des modèles IA.

En conclusion, CriticGPT représente un pas significatif vers l’amélioration de la détection des erreurs dans les réponses générées par l’IA. Grâce à une collaboration étroite entre l’IA et les humains, OpenAI se rapproche d’une supervision plus précise et efficace des systèmes d’intelligence artificielle.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *