Data / IA

Tuito génère du SQL à partir du langage naturel

Par Alain Clapaud, publié le 06 janvier 2025

En 2024, le SQL est encore l’esperanto pour interroger les bases de données relationnelles. Or, ce langage est le domaine réservé des informaticiens et reste abscons pour les utilisateurs métiers. L’IA générative apporte aujourd’hui une solution.

Créé il y a 50 ans, le langage SQL n’en reste pas moins omniprésent dans l’informatique moderne. Tous les SGBD relationnels du marché le supportent et les informaticiens se doivent de le maîtriser. Mais il n’a pas été conçu pour un usage par des non-informaticiens. C’est là que l’IA générative entre en scène avec Tuito.

Depuis sa création, en 2018, Tuito travaille sur le traitement du langage naturel et sur les interactions homme-machine par la voix. L’une des applications étudiées par la start-up porte sur l’interrogation des bases de données structurées. L’idée de sa solution QueryX est de traduire automatiquement en langage SQL une requête exprimée en langage naturel. Mais si les IA génératives sont capables de créer du code source dans presque tous les langages, générer du SQL n’a rien de trivial, comme l’explique Laurent Molac, cofondateur et CEO de Tuito. « Contrairement aux autres langages, le SQL est très dépendant de l’environnement : il faut disposer de la structure de la base de données, du lexique et de la grammaire du système, du langage correspondant à chaque domaine d’application, etc. Ce n’est pas faisable de manière totalement générique. »

La cible de la solution Tuito sont les « sachants métiers », ces experts qui ne maîtrisent pas le langage SQL, mais doivent aller chercher des informations dans les bases de données de leur entreprise. Elle peut aussi aider les développeurs à générer le SQL qu’ils doivent intégrer à leur code. — La cible de la solution sont les « sachants métiers », ces experts qui ne maîtrisent pas le langage SQL, mais doivent aller chercher des informations dans les bases de données de leur entreprise. Elle peut aussi aider les développeurs à générer le SQL qu’ils doivent intégrer à leur code.

Des NLP insuffisants

À ses débuts, l’équipe du projet s’appuie sur les travaux académiques et la base de données Spider de l’université de Tale, une référence. « En nous basant sur des NLP de type BERT, le taux de réussite était alors de l’ordre de 30 à 35 %, ce qui est bien trop faible pour une application commerciale. Nous avions alors abandonné ce développement. »

L’arrivée de ChatGPT et des LLM fin 2022 va rebattre les cartes. Tuito ressort son projet du carton et teste GPT-3. Le taux de réussite bondit à 50 %, puis monte jusqu’à 75 % au fur et à mesure des améliorations apportées. Cela reste insuffisant, car ChatGPT délivre systématiquement une réponse, même si elle est fausse. De plus, contrairement à d’autres IA, GPT ne fournit pas de taux de confiance avec sa réponse. Tuito s’est donc attachée à améliorer non seulement le taux de bonnes réponses, mais aussi les alertes à l’utilisateur si la réponse n’est pas correcte, pour qu’il puisse reformuler sa requête.

Les fondateurs de Tuito estiment avoir atteint leurs objectifs et QueryX est aujourd’hui disponible en mode SaaS. La start-up a choisi un modèle freemium, avec un service web gratuit simplifié et une utilisation payante du service pour bénéficier de toute sa puissance. La version actuelle de QueryX s’appuie sur GPT-4o, mais l’éditeur travaille sur la qualification de la solution sur d’autres LLM open source pour proposer sa technologie en mode on-premise. Cette future version sera dévoilée d’ici la fin de l’année.

Tuito vise les utilisateurs finaux via sa solution web, et le marché B to B via les API. Les entreprises pourront donc mettre à disposition cette fonctionnalité au sein de leur intranet, de même que les éditeurs de logiciels seront en mesure de l’intégrer à leurs solutions.

Les créateurs de QueryX réfléchissent à élargir le spectre de leur solution et à jouer sur la complémentarité de leur technologie avec les RAG (Retrieval-Augmented Generation), ces LLM capables de s’appuyer sur des sources de données additionnelles, pour des requêtes de données structurées et de documents.