CriticGPT, l'IA qui évalue la qualité des réponses générées par ChatGPT et consorts...

Data / IA

CriticGPT d’OpenAI, la nouvelle IA qui corrige les IA

Par Laurent Delattre, publié le 28 juin 2024

Qui mieux qu’une IA peut corriger une autre IA ? C’est en substance ce que cherche à prouver la dernière innovation d’OpenAI. Son nouveau modèle CriticGPT est spécialement entraîné pour critiquer et corriger les réponses produites par ChatGPT et autres LLM…

En l’espace d’un an, l’IA générative a déjà transformé le quotidien de nombre d’entre nous. Elles sont devenues des compagnons de travail qui évitent de perdre du temps sur une feuille blanche, commentent votre travail, génèrent des résumés ou des traductions, suggèrent des idées, proposent des réponses évoluées à vos questions, génèrent automatiquement des lignes de code, vous débloquent quand vous butez sur une difficulté, etc.

Mais l’IA générative a aussi un énorme défaut : on ne sait jamais quand elle affabule et si on peut oui ou non avoir confiance en sa réponse. Et ce n’est pas un moindre défaut. Mais il est inhérent au fonctionnement même des LLM (Large Language Model) actuels. Et plus les modèles deviennent sophistiqués, plus leurs erreurs deviennent subtiles et donc difficiles à repérer.

Pour tenter d’apporter une solution à ce problème, OpenAI a eu l’idée de développer une IA spécialement entraînée pour juger les réponses des IA et vérifier leur crédibilité.

Dénommé CriticGPT, ce nouveau modèle – qui s’appuie sur GPT-4 – est capable de détecter et comprendre les erreurs produites dans les codes informatiques générés par ChatGPT. À terme, l’objectif est d’exploiter ce modèle « correcteur » à toutes réponses générées par l’IA.

Conçu comme une aide aux humains face aux IA

CriticGPT a été entraîné par un processus de “Reinforcement Learning from Human Feedback” (RLHF), similaire à celui utilisé pour ChatGPT, mais avec une particularité : il a été exposé à une grande quantité de données contenant des erreurs intentionnellement insérées. Les formateurs humains modifiaient en effet les réponses de ChatGPT en y ajoutant des bugs et fournissaient ensuite des exemples de critiques pour ces erreurs. CriticGPT a ainsi appris à identifier et à souligner ces erreurs de programmation dans de nouveaux échantillons de code.

Les études menées par OpenAI montrent que CriticGPT améliore significativement la détection des erreurs opérées par les humains. Lors de tests, les critiques générées par CriticGPT ont été préférées par les annotateurs dans 63 % des cas par rapport aux critiques humaines sur des erreurs naturellement présentes dans le code généré par ChatGPT. De plus, lorsque les formateurs humains travaillaient avec CriticGPT, ils produisaient des critiques plus complètes et moins de bugs inventés (hallucinations). Mieux encore, CriticGPT a été capable de trouver les anomalies dans 85% des cas, alors que les humains ne les repéraient que dans 25% des cas.

Des capacités encore limitées

CriticGPT n’a pas encore vocation à corriger automatiquement la production de ChatGPT mais plutôt à aider les humains à comprendre ce que l’IA a généré et à pointer les erreurs et hallucinations.

Et bien évidemment, CriticGPT a ses limites. D’autant qu’il s’agit là d’une première version expérimentale. Ce modèle a été principalement testé sur des extraits de code relativement courts et peut parfois surestimer la gravité de certains problèmes. De plus, bien qu’il réduise le taux de fausses alertes par rapport à ChatGPT, il peut lui-même “halluciner” des problèmes inexistants.

Une autre limitation importante est que CriticGPT a été formé principalement sur du code Python et pourrait ne pas être aussi performant sur d’autres langages de programmation ou types de contenu. Les chercheurs soulignent également que l’outil n’est pas conçu pour détecter des erreurs complexes réparties sur plusieurs parties d’un programme.

Néanmoins, malgré ces limitations, CriticGPT représente une expérience originale et une piste prometteuse pour s’assurer de la véracité des réponses générées par les modèles génératifs. À suivre…

À LIRE AUSSI :