Newtech

Développer la vision par ordinateur grâce à l’annotation automatisée d’images

Par Charlotte Mauger, publié le 27 novembre 2024

Le développement d’un modèle d’IA pour la vision repose sur l’analyse de grandes quantités d’images qu’il faut au préalable annoter, c’est-à-dire décrire formellement. Neovision et le LIRIS cherchent à automatiser cette étape, ce qui permettrait aux entreprises de mieux exploiter leurs datasets et ainsi de concevoir des modèles optimisés pour des tâches spécifiques, notamment le contrôle-qualité.

L’annotation des données est une étape longue mais nécessaire avant de développer un modèle d’IA adapté à une tâche de vision par ordinateur. Actuellement, cette tâche incombe aux data scientists qui doivent ainsi transformer la donnée en information, indiquant ce qui se trouve sur chaque image (par exemple, un défaut sur un produit) et où dans l’image. « Cela peut prendre entre quelques secondes et quelques minutes par image, selon la quantité de détails nécessaires pour la tâche », précise Lucas Nacsa, CEO et cofondateur de l’entreprise grenobloise Neovision, spécialisée dans le développement de solutions d’IA sur mesure. Pour réduire ce temps, Neovision et le Laboratoire d’Informatique en Images et Systèmes d’Information (LIRIS) de Lyon vont concevoir un outil d’annotation automatique de données, qui sera accessible dès 2025.

Ce projet, intitulé Datawise, a démarré en 2024 quand Mathieu Lefort, chercheur au LIRIS, et son doctorant Alexandre Devillers ont présenté leurs travaux à l’entreprise. Ceux-ci portent sur la manière d’entraîner un modèle de vision par ordinateur quand les données spécifiques à la tâche ne sont pas assez nombreuses. Dans ce cas, un entraînement préliminaire sur de grosses quantités d’images génériques (d’animaux, de véhicules, d’objets) est effectué pour garantir des performances satisfaisantes du modèle. Ne reste plus alors qu’à affiner ses aptitudes en l’entraînant sur des données plus spécifiques à la tâche visée, et annotées.

Cette étape préliminaire s’appelle l’apprentissage de représentation de données. Et elle est adaptée aux besoins des entreprises qui ont beaucoup de données mais qui, pour des raisons de temps et de coût, ne peuvent pas en annoter beaucoup.

« Mon doctorant a proposé une meilleure manière de réaliser cette première étape », détaille Mathieu Lefort. Meilleure, car après cet entraînement préliminaire, les images sont mieux organisées au sein du modèle. Et c’est intéressant pour l’annotation de données : si on comprend davantage comment les données sont représentées, il devient possible d’annoter automatiquement les images lors de la deuxième phase de l’entraînement. En poursuivant les travaux, Neovision et le LIRIS espèrent donc construire un outil qui permettra cette automatisation appliquée aux données métiers. « Notre but est que l’humain ne soit là que pour superviser et corriger les erreurs », escompte Lucas Nacsa.

Le premier objectif de Datawise est donc de permettre aux entreprises d’exploiter leurs données pour la vision par ordinateur en réduisant le temps de l’annotation de leurs propres bases de données. De plusieurs secondes pour une image, Lucas Nacsa espère passer à « presque zéro » en annotant en masse les données.

Le contrôle-qualité sera sûrement l’un des cas d’usage de l’outil. Pour preuve, les sociétés Tiama, une entreprise de contrôle-qualité du verre, et Soitec, une entreprise de conception et production de matériaux semi-conducteurs, sont clients-pilotes pour ces raisons. Elles prolongent ainsi une solide habitude des PME industrielles de la région grenobloise qui investissent depuis longtemps sur ces technologies.

À terme, les chercheurs du LIRIS et les ingénieurs de Neovision estiment que Datawise permettra une amélioration des performances des modèles de vision par ordinateur. Cela grâce à la meilleure représentation, mais également parce que l’outil permettra de nettoyer les datasets, en corrigeant les erreurs d’annotations, les biais dans le corpus et en supprimant des données non pertinentes pour la tâche. Lucas Nacsa l’espère : « Notre méthode, en permettant de converger plus vite vers la solution, aidera à concevoir des modèles complètement spécialisés sur les priorités des industriels. »

À LIRE AUSSI :