Data / IA
Modèles de langages, Big Data et Noisy Data : En IA, « plus grand » n’est pas toujours « mieux »
Par Laurent Delattre, publié le 18 janvier 2024
Les récents progrès réalisés sur l’IA générative et particulièrement sur les LLM, MLM et SLM, ont aussi mis en lumière l’importance de la qualité des données utilisées à leur apprentissage. La gestion efficace des données, quelle que soit leur ampleur, s’impose comme un facteur déterminant pour accroître la précision et la transparence des informations traitées par l’IA.
Par Philip Miller – Customer Success Manager – Progress
Les entreprises doivent comprendre leur utilisation de l’IA, des modèles de langage étendus et des modèles de langage moyens, ainsi que la manière dont les données, quel que soit leur volume ou leur forme, peuvent l’influencer pour accroître l’exactitude, la fiabilité et la transparence des données.
Le vieil adage « Garbage in, garbage out » est toujours vrai aujourd’hui, en particulier avec l’essor de l’IA, des grands modèles linguistiques dans les entreprises et des grandes quantités de données que ces technologies utilisent.
Selon un rapport récent d’Accenture (2023), 73 % des entreprises affirment que l’IA est leur priorité en matière d’investissement numérique. Même si les entreprises souhaitent capitaliser sur le potentiel de l’IA, elles font preuve de prudence dans la manière dont elles la mettent en œuvre en leur sein, car beaucoup reconnaissent que voir plus grand n’est pas toujours le mieux et peut conduire à des biais et des inexactitudes dans les données.
Il est important de nous comprendre nous-mêmes, de comprendre nos données et nos entreprises pour atténuer les pièges potentiels qui surviennent lorsque nous traitons avec cette technologie susceptible de changer le monde.
L’impact des ‘Noisy Data’ dans l’IA générative
Un biais de données peut provenir de Noisy Data (données bruitées). Ces dernières peuvent avoir un impact sur les performances de l’entreprise et sur ses prévisions, sa prise de décision, ses ressources ainsi que l’expérience client. Mais qu’est-ce que les Noisy data ?
Selon la définition de TechTarget « Le terme « Noisy Data » est souvent utilisé comme synonyme de « données corrompues ». Cependant, sa signification a été élargie pour inclure tout type de données que les machines ne peuvent pas lire ou interpréter correctement, telles que les « données non structurées ». En d’autres termes, toute donnée reçue, enregistrée ou modifiée de telle manière qu’il est impossible pour le programme qui l’a créée de la lire ou de l’utiliser peut être classée comme une donnée bruitée. »
En gardant cela à l’esprit, explorons où l’on pourrait trouver des données bruitées, comment cela est lié au volume considérable de données auquel l’IA doit être entraînée et explorons pourquoi nous devons examiner notre compréhension de ce volume croissant auquel nous devons donner un sens avec l’aide de la technologie.
Grands nombres, infini et IA
Les humains n’ont jamais eu besoin de voir au-delà de 10, 100 ou peut-être même de 1000. Pendant la chasse, nous chassions le gibier en nombre relativement restreint. Lorsque nous devions éviter les menaces, elles étaient généralement de nature singulière. Lorsque nous manipulions le monde, nous ne déplacions, plantions, construisions, etc. qu’un nombre relativement restreint d’objets.
Par conséquent, jusqu’à récemment dans l’histoire de l’évolution, notre cerveau n’a jamais eu à gérer de grands ensembles de choses, 1 000, voire plus de 10 000.
Ainsi, nos expériences passées ont façonné notre cerveau dans un endroit où nous ne pouvons pas imaginer les limites supérieures des chiffres provenant de notre monde moderne axé sur les données. Bien que l’expérience humaine soit limitée en termes de nombres et de dimensions, les technologies d’IA peuvent fonctionner avec des nombres allant bien au-delà de notre compréhension et n’ont aucune difficulté à regarder au-delà de notre monde à quatre dimensions (les 3 dimensions de l’espace et le temps).
ChatGPT – ou plus exactement le modèle derrière l’itération actuelle – utilise 12 288 dimensions, chaque dimension étant un aspect du mot (douceur, fréquence, registre, etc.), à laquelle est ensuite attribuée une valeur pour chaque propriété que ChatGPT attribue à ce mot.
Nous ne pouvons pas visualiser ces dimensions. ChatGPT ne peut pas nous « montrer » à quoi cela ressemble, mais c’est ainsi que lui et d’autres LLM (Large Language Models) « voient » leur univers.
À LIRE AUSSI :
Là où converge notre expérience de l’univers, c’est l’infini. L’IA et nous ne pouvons pas visualiser, dessiner ou même imaginer avec précision à quoi ressemble l’infini. C’est trop grand, trop vaste, au-delà des limites de notre existence. Nous, c’est-à-dire à la fois l’IA et nous les humains, pouvons l’utiliser dans des équations et des calculs mathématiques. Mais lorsqu’il s’agit de le concrétiser dans nos existences respectives, nous n’en sommes tout simplement pas encore là.
Alors pourquoi parler d’infini ? Eh bien, des choses étranges se produisent lorsque vous accédez à des nombres de plus en plus grands, et c’est également le cas lorsque vous utilisez des ensembles de données de plus en plus volumineux pour entraîner l’IA.
Les grands nombres jouent des tours à notre esprit et dépassent l’entendement. Si je vous disais que je peux vous donner en espèces soit 10 000, soit… 9 999 999, avec tous ces neufs à l’infini, quel nombre choisiriez-vous ? Vous opteriez pour les neuf, n’est-ce pas ? Et si je vous disais que ce nombre infini de neufs vaut en réalité -1 ? Mauvaise surprise.
Même chose pour 0,999999 avec un nombre infini de neuf à droite de la virgule décimale ? Sachez que dans ce cas vous seriez mieux loti puisque ce nombre équivaut cette fois à un. Vous n’y comprenez rien? Normal. Cette démonstration s’appuie sur le système numérique 10-adique, dont voici une excellente explication ici.
Mais encore une fois, tous ces chiffres sont pâles en comparaison de l’infini. On dit qu’en raison de la nature de notre univers, de la nature aléatoire de la mécanique quantique, des probabilités, etc., si notre univers était infini, avec un nombre infini d’atomes ; alors, si vous commenciez à voyager à travers l’espace en ligne droite, vous finiriez par rencontrer une autre Terre. Identique en tous points à notre propre Terre, y compris avec votre sosie réel qui a vécu sa vie de la même manière et qui lit également ce même article en ce moment.
Maintenant, dans cet univers et même dans le nôtre, cette quantité de chiffres ou de données est trop lourde à gérer pour notre cerveau. Cela crée de la confusion et nous submerge presque. Il y a tellement de choses qui ne nous sont pas très significatives ou accessibles. Et c’est là que nous commençons à converger avec l’IA. À mesure que nous augmentons la quantité de données transmises à notre IA, qu’il s’agisse de ChatGPT ou de toute autre IA, le bruit dans les données, les aberrations, les erreurs, les choses dont l’IA n’a pas besoin ou ne veut pas, peuvent interférer avec ce que nous recherchons à obtenir en sortie.
Et lorsque l’on ajoute des données inaccessibles, comme des données non structurées dans certains cas, ce bruit ne fait qu’augmenter. ·
À LIRE AUSSI :
IA générative pour l’entreprise
Les entreprises devraient examiner en profondeur les données qu’elles utilisent pour entraîner leurs IA. Elles devraient nettoyer, organiser, harmoniser et modéliser leurs données propriétaires avant même que l’IA ne les examine pour s’assurer que ce bruit est réduit au minimum et que les données requises à l’entraînement sont en nombre significativement réduit.
Cela supprimera non seulement la majeure partie du bruit en sortie, mais réduira également le coût d’entrainement de l’IA, se rapprochant ainsi d’un MLM (Medium Language Model). Les entreprises doivent s’assurer que la plate-forme de données qu’elles utilisent pour réaliser l’IA (qu’il s’agisse d’un LLM, MLM ou d’un autre modèle d’IA) est évolutive, multimodèle et sécurisée. Les fonctionnalités supplémentaires à rechercher sont de savoir si la plate-forme de données peut gérer les métadonnées, c’est-à-dire extraire des faits des entités dans les données, combiner ces données avec des métadonnées, leur emplacement dans une taxonomie, l’ontologie autour des données, les liens et les relations avec d’autres données et harmoniser les données dans le modèle canonique correct pour l’IA.
Étant donné que la plateforme de données peut utiliser des données tierces ou gérer des données sensibles, il est également important de prêter attention aux aspects de sécurité. Cela inclut la fourniture d’un chemin vérifiable afin que les modifications apportées aux données puissent être retracées jusqu’à la source, en cas de problème lors de la présentation de ces modifications à l’IA.
Couvrir toutes ces bases nécessite souvent plusieurs technologies. Toutefois, si vous assemblez plusieurs systèmes différents, vous vous retrouverez avec une architecture fragile, difficile à maintenir et à gérer. C’est pourquoi vous devez considérer la plateforme de données comme quelque chose qui peut évoluer et changer lorsque de nouvelles données et/ou systèmes sont ajoutés à la plateforme.
Nous avons un long chemin à parcourir avant de perfectionner notre compréhension de l’IA, des LLM et des MLM et de la façon dont les données, quel que soit leur volume ou leur forme, peuvent influencer le résultat. Mais disposer de la bonne technologie de données est indispensable si l’on veut réduire le bruit et le rendre aussi performant que possible. Nous devons tout faire pour que les IA que nous créons au fur et à mesure nous donnent les signaux les plus clairs et, surtout, délivrent les réponses les plus justes possibles.
NB : Les entreprises investissent déjà dans l’amélioration de la précision, de la transparence, de la fiabilité et de la sécurité des systèmes d’IA et les intègrent dans leurs activités pour améliorer leurs opérations et leur efficacité. Découvrez comment obtenir une sécurité accrue, une fiabilité améliorée, des économies de coûts et une création intuitive d’invites et une compréhension des réponses : The AI data-driven enterprise
À LIRE AUSSI :