Data / IA
Le renouveau des plateformes de Data Science dans le Magic Quadrant 2024 du Gartner
Par Laurent Delattre, publié le 27 juin 2024
La publication du Magic Quadrant 2024 des plateformes de Data Science & IA (DSML) du Gartner montre un marché dynamique, ultra concurrentiel mais également en pleine métamorphose, impacté par le tsunami de l’IA générative. Avec des leaders historiques comme Dataiku ou Databricks désormais très menacés par les hyperscalers…
Les plateformes DSML (Data Science & Machine Learning) sont des environnements intégrés conçus pour faciliter le développement et l’application de techniques analytiques prédictives et prescriptives. Elles combinent des bibliothèques de code et des outils low-code pour permettre à divers utilisateurs, des data scientists aux experts métiers, de collaborer efficacement tout au long du cycle de vie des projets de data science.
Ces plateformes regroupent et unifient un large éventail de fonctionnalités, notamment :
– L’accès et l’intégration des données
– La préparation des données
– L’expérimentation et la création de modèles
– Le support de diverses techniques d’apprentissage (régression, arbres de décision, deep learning, etc.)
– La gestion des workflows d’ingénierie ML (pipelines de données, de features, de déploiement et de test)
– Le support des pratiques MLOps pour le déploiement et le monitoring des modèles en production
– Des interfaces low-code pour démocratiser l’accès à la data science
– Le partage des résultats, la collaboration autour de la Data
– L’automatisation des décisions grâce à l’IA générative et au ML
En utilisant ces plateformes, les organisations peuvent fluidifier toutes les tâches de Data Science, réduire significativement le temps de développement des modèles prédictifs et génératifs, favoriser la collaboration entre équipes, et améliorer la productivité des data scientists. Elles permettent d’aborder une grande variété de cas d’usage, de la prévision financière à l’analyse du comportement client, en passant par la maintenance prédictive et le traitement du langage naturel.
Le Magic Quadrant du Gartner dédié aux plateformes de Data Science les évalue en prenant en compte la maturité de leurs fonctionnalités (et la complétude de la plateforme) et la capacité à s’imposer sur le marché (capacité à exécuter la vision).
La maturité des fonctionnalités est mesurée selon 3 axes :
* Les fonctionnalités impératives : ingestion des données on-prem & Cloud, construction et évaluation des modèles, déploiement/hébergement/fourniture des modèles.
* Les fonctionnalités standard : capacité à créer des modèles multimodaux, développement de modèles en Low Code, interface de développement basée sur les Notebooks, gestion intégrale du cycle de vie des modèles, support des processus et de l’outillage MLOps.
* Les fonctionnalités optionnelles : systèmes de recommandations intégrés, interfaces avancées pour la modélisation, la simulation et l’optimisation, SDKs pour piloter la plateforme via du code, fonctionnalités dédiées aux IA génératives (fine-tuning, tracking, monitoring de prompts, etc.), outils autour de la transparence et l’éthique des IA.
Au fil des années Gartner a peaufiné et enrichi ses critères, faisant ainsi évoluer son Magic Quadrant pour mieux refléter les évolutions du marché.
Et s’il faut tirer deux conclusions du Magic Quadrant 2024, c’est d’abord que la compétition s’est intensifiée (18 solutions apparaissent désormais dans le Magic Quadrant) et ensuite que les temps deviennent bien plus difficiles pour les acteurs historiques du marché.
Les géants s’emparent du marché
Longtemps dominés par les leaders historiques que sont Databricks, Dataiku et Alteryx, les hyperscalers ont su enrichir leurs plateformes et compléter leurs offres au point de rattraper voire dépasser les leaders historiques. Le rouleau compresseur des géants de la Tech est passé par là. Il y a 4 ans, tous les acteurs étaient très regroupés dans les deux carrés de droite. Désormais, le Magic Quadrant est beaucoup plus éclaté. Certes Databricks et Dataiku figurent toujours dans le carré magique des leaders. Databricks peut se targuer d’être en tête sur l’axe de « la capacité à exécuter ». Dataiku d’avoir la vision la plus complète. Alteryx est désormais rétrogradé en « Niche Players » alors que l’entreprise vient d’être acquise par deux fonds. Mais Microsoft (Microsoft Fabric) et Google (Vertex AI) sont désormais ceux « les plus en haut à droite », donc ceux qui combinent le meilleur équilibre général.
Pour Gartner, Microsoft (avec Microsoft Fabric, azure ML, Azure AI Studio, Power Platform) est portée par ses efforts autour de l’IA générative, des AI Agents et son partenariat OpenAI. Gartner reproche à l’éditeur le joli « bordel ambiant » né des multiples renommages de produits (cf Synapse transformé en OneLake et en Fabric) et la complexité induite par le fait de Power BI et Purview ne soient pas intégrés officiellement à Microsoft Fabric tout en constituant des briques essentielles à celle-ci. Et que GitHub Copilot et Copilot for Microsoft 365 soient des offres à part. Difficile de donner tort à Gartner sur ce coup.
Du côté de Google, Gartner salue la qualité et la maturité de l’offre Vertex AI ainsi que l’excellent rapport qualité-prix des modèles génératifs de Google (Gemini). Mais l’analyste reproche au géant américain une approche trop centrée sur l’univers Data de GCP (Google Cloud Platform), et des capacités d’unification des données, de « core data science » et de gouvernance des IA inférieures à celles proposées par les autres Leaders.
AWS est significativement en retrait en termes de maturité de vision sur ces plateformes DSML : le cloud d’Amazon est ici handicapé par sa tendance naturelle à vouloir offrir des tas de briques différentes pour satisfaire des besoins différents sans forcément chercher à construire une plateforme de bout en bout (même si c’est l’objectif recherché par AWS Sagemaker).
Pour Gartner, Databricks se démarque par ses outils Mosaic AI (nés de l’acquisition de MosaicML) et la cohérence de la plateforme basée sur son data lakehouse mais reproche à la plateforme sa complexité intrinsèque qui impose de bien penser le design en avance de phase. Un reproche que l’on peut désormais effacer de l’équation avec l’arrivée tant attendue d’une version « 100% Serverless » à partir du 1er juillet !
Selon Gartner, Dataiku se démarque par son expérience Low-code collaborative et son initiative LLM Mesh pour démocratiser le développement des IA génératives en entreprise (d’une manière générale Gartner salue la maturité de l’approche Dataiku autour de l’IA générative qui prend en compte les besoins d’optimisation financière des DSI) mais reproche à l’éditeur son modèle tarifaire bien trop complexe et une offre on-premises très complexe à maintenir.
Le carré des Leaders est complété par Altair RapidMiner (Altair a racheté RapidMiner en 2022 dont la plateforme était assez populaire dans les milieux industriels et des applications scientifiques, permettant ainsi à Altair de passer du carré des Niche Players aux Leaders en 2 ans), SAS Viya (salué pour son approche DecisionOps et sa popularité dans les milieux industriels grâce à ses modèles , mais handicapé par ses tarifs et un certain retard sur l’IA générative) et DataRobot (salué pour ses automatisations IA et ML mais handicapé par une offre IA moins mature que ses fonctions d’ingénierie de la donnée ainsi qu’un important turnover dans ses équipes dirigeantes).
Du côté des Challengers et des Visionnaires
Du côté des surprises, on retiendra le positionnement « Challengers » d’IBM (avec Watson Studio et watsonx mais Gartner reproche à IBM un manque de lisibilité de l’offre) et de Alibaba Cloud (Gartner reprochant une présence limitée hors de Chine et une offre encore trop complexe au Low Code limité), et celui de « Visionnaire » de Cloudera (dont l’offre Cloudera Data Platform n’est pas aussi riche que celle des leaders).
Puisque l’on est dans le carré des Visionnaires, on y notera la présence de H2O.ai (avec ses offres Driverless AI, Hydrogen Torch, Document AI, AI Feature Store et MLOps) salué pour son approche singulière et open source de l’IA générative et de Domino Data Lab qui se démarque par son approche très verticale et centrée sur la sécurité.
Des surprises dans les “Niche Players”
Enfin, terminons par un rapide tour du carré des « marchés de niche » qui est en réalité plein de surprise puisque deux « leaders » des années 2020 y ont été « rétrogradés » : Alteryx comme déjà évoqué (qui n’a plus de facteurs différenciants et se focalise trop sur les Data Scientists selon Gartner) et MathWorks (qui demeure un outil d’ingénieurs et n’a pas vraiment saisi le virage de l’IA générative si ce n’est pour discuter avec les résultats produits par MATLAB).
Anaconda reste un acteur à part sur le marché avec une plateforme de data science Python populaire mais qui maintient l’éditeur dans le carré « Niche » depuis plus de 5 ans.
Les deux derniers acteurs sont des acteurs portés par des communautés open source.
Posit dispose d’une plateforme de data science conçue pour faciliter le déploiement des travaux des data scientists à travers l’entreprise de manière sûre et contrôlée. Elle permet de partager des notebooks Jupyter, des tableaux de bord Ploty et simplifie la création d’applications construites sur les frameworks open source que son Shiny, Streamlit, Dash et Flask.
KNIME n’est pas loin de pouvoir mieux figurer au classement. Sa plateforme ML – Knime Analytics Platform – propose notamment une modélisation graphique des pipelines d’ingestion et de ML. Knime Server permet de piloter et automatiser les workflows de data science avec une approche très collaborative pour fédérer le travail en équipe. Cet acteur open source est salué par Gartner pour la profondeur de sa Data Science et la volonté de démocratiser le domaine avec son outil Desktop gratuit.
Ce qu’il faut retenir du Magic Quadrant DSML 2024
Pour Gartner, ce marché n’a jamais été aussi dynamique et concurrentiel. Et pour cause. L’IA générative est en train de complètement le transformer. En effet, 53% des répondants à l’étude DSML du Gartner estiment que la demande en GenAI est le principal moteur dans l’adoption d’une plateforme DSML en 2024. Le marché est en train de se redessiner mais c’est en réalité toute la Data Science qui est en train de se métamorphoser. Gartner anticipe que d’ici 2027, 50 % des analystes de données seront recyclés en data scientists, et les data scientists se transformeront en ingénieurs IA. Et dans cette métamorphose, les grands gagnants seront très probablement les hyperscalers.
On notera néanmoins l’absence dans ce classement d’OVHcloud – qui peine à finaliser et imposer sa « Data Platform » malgré une volonté marquée de s’imposer comme un acteur de ce marché en s’appuyant sur l’open source – ainsi que celle d’Oracle Cloud dont les offres OCI Data Science et OCI Generative AI n’ont pas été jugées suffisantes pour figurer dans le carré magique.
Deux autres absences sont particulièrement remarquées. Celle très étonnante de Snowflake d’abord alors que son concurrent direct Databricks trône dans le carré des leaders. « Snowflake n’a pas rempli les critères d’inclusion pour figurer parmi les 20 premiers fournisseurs dans l’indice d’intérêt des clients pour ce Magic Quadrant », explique Gartner. Voilà une bien étrange excuse qui doit interroger Snowflake sur sa popularité.
Et celle de Salesforce qui, pourtant, ne cesse de vouloir désormais se présenter en plateforme de données et d’IA. Explication avancée par Gartner : « Salesforce n’a pas rempli les critères pour proposer une stratégie de mise sur le marché pour le scientifique professionnel des données ».
Alors que l’avenir des vrais spécialistes de la Data Science s’obscurcit face à l’irrésistible montée en puissance des hyperscalers, il ne serait guère étonnant de voir Snowflake, Databricks, Dataiku ou DataRobot se faire acquérir par un Salesforce probablement un tantinet agacé par les commentaires de Gartner.
À LIRE AUSSI :
À LIRE AUSSI :
À LIRE AUSSI :