Data / IA
Peut-on entraîner une IA sur des données synthétiques ?
Par Charlotte Mauger, publié le 20 décembre 2023
Entraîner un modèle d’IA génératif sur des données synthétiques dégrade a priori la qualité et la diversité des sorties. Mais dans des conditions raisonnables, ces données artificielles pourraient permettre de gonfler les bases d’entraînement.
La donnée synthétique est attrayante : elle est rapide, facile à produire et peu coûteuse. Pour les modèles génératifs, qui nécessitent des bases de données gigantesques pour leur entraînement, elle semble même un moyen de pallier le manque de données d’origine humaine. Pour les autres, elle apparaît aussi comme un moyen de compléter une base de données, notamment sur les catégories peu fréquentes.
Des chercheurs, dont les travaux sont relatés dans deux études récentes – encore en prépublication –, ont analysé à la fois de manière théorique et empirique, les conséquences de l’introduction de quantités plus ou moins importantes de données synthétiques dans le corpus d’apprentissage d’un modèle génératif de textes ou d’images. Pour cela, ils ont entraîné plusieurs fois de suite un système sur des données qu’il a lui-même produites.
« Nous avons remarqué que si le modèle est suffisamment bon et que la quantité de données générées n’est pas trop importante par rapport aux réelles, alors le modèle ne dégénère pas », explique Quentin Bertrand, chercheur au Mila et à l’Université de Montréal, co-auteur de l’une de ces études. « Dans le cas d’un apprentissage, à chaque étape, sur un mélange de données nouvelles réelles et de données générées pas trop importantes, nous avons même remarqué une amélioration des performances », assure Sina Alemohammad, chercheur à l’Université de Rice (États-Unis) et co-auteur de l’autre étude.
Des données générées en faible proportion, de bonne qualité et accompagnées de données humaines nouvelles : en respectant ces trois conditions, une entreprise pourrait profiter des données synthétiques pour compléter un jeu de données. « Si on dispose d’un modèle de reformulation suffisamment fiable, on peut l’utiliser pour augmenter la proportion de catégories sous-représentées », explique Damien Sileo, chercheur à l’Inria à Lille. DSI de Bpifrance, Lionel Chaine approuve : « On n’y est pas encore, mais on envisage d’utiliser nos grands modèles de langage – qu’on maîtrise – pour augmenter nos bases de données. »
À LIRE AUSSI :
A contrario, insistent les chercheurs, ne pas respecter ces trois conditions expose au risque de voir les données synthétiques causer l’effondrement du modèle, la dégradation de la qualité de ses sorties. Dans une troisième prépublication, Ilia Shumailov et ses collègues parlent même de « maladie de la récursion ». « Si on entraîne plusieurs fois un modèle sur des données générées, on s’éloigne peu à peu de la distribution de données originelle », décrit-il. Et moins le modèle est bon, plus les sorties sont de mauvaise qualité, et celles issues des entraînements suivants encore davantage. Par exemple, des artefacts apparaissent et s’amplifient sur les images générées.
Alimenté de manière récursive, le modèle génératif amplifie progressivement des artefacts sur les images produites.
« ChatGPT est une sorte de résumé des informations d’internet. S’il résume l’information, c’est qu’il en perd », image Sina Alemohammad. Par définition, les données les moins représentées dans le corpus d’apprentissage sont les moins probables parmi les sorties. Alors, « après plusieurs entraînements, les événements les moins probables disparaissent des sorties », prévient Ilia Shumailov. Ce qui peut poser problème notamment dans le cas de minorités : « La donnée générée peut améliorer la représentation des classes dominantes, mais pas des minorités qui sont “improbables” pour le système… », met-il en garde.
Le problème est qu’aujourd’hui, la part de données synthétiques ne cesse de croître sur internet. Gartner estime même qu’elle pourrait dépasser en proportion la donnée « humaine » d’ici 2030. Les contenus artificiels ont déjà « contaminé » certaines des bases de données utiles à l’entraînement des modèles génératifs d’images. Sans parler des modèles génératifs à venir : « La crainte est là : qu’il n’y ait plus d’accès à des jeux de données propres et que cela bloque la progression des modèles », prévient Quentin Bertrand.
Et pour le reste des données, celles dont l’origine humaine ou synthétique est contrôlée, il est délicat, pour l’heure, de quantifier la part de données générées à ne pas dépasser pour l’apprentissage. « Dans notre cas, on a remarqué qu’empiriquement elles ne doivent pas dépasser 10 % », explique Quentin Bertrand.
D’un modèle et d’un jeu de données à l’autre, la quantité tolérée est différente : dans l’équipe de Sina Alemohammad, les deux types de données étaient en égales proportions. D’autres études devraient suivre.
À LIRE AUSSI :
À LIRE AUSSI :