Data / IA

Short S2E20 – IA : une collecte de données plus en plus restreinte

Par Alessandro Ciolek, publié le 13 novembre 2024

Les outils d’IA générative reposent sur leur capacité à s’alimenter en informations pour informer leurs utilisateurs. Mais que se passerait-il si cet accès leur était en partie retiré ? De plus en plus de sites d’information cherchent en effet à se protéger en bloquant l’accès à leurs contenus pour les IA.

Ces derniers mois, la collecte de données par les intelligences artificielles est au cœur de nombreux débats. Plusieurs grands médias cherchent à protéger leurs contenus contre ce qu’ils considèrent comme une forme de “pillages numériques”. Aux États-Unis, des géants de l’information, parmi lesquels le New York Times, le Wall Street Journal et The Guardian, ont ainsi décidé de restreindre l’accès automatique de leurs données aux IA. En conséquence, des modèles comme ChatGPT, Claude ou Perplexity devront désormais se tourner vers d’autres sources pour enrichir leurs réponses. En août 2023, News Corp, propriétaire du Wall Street Journal, a même intenté un procès contre Perplexity pour « copie illégale » d’articles sous copyright, certains contenus payants ayant été rendus accessibles sans l’accord du média.

Les IA risquent-elles de perdre en pertinence ?

Si ces restrictions peuvent sembler marginales au regard du volume colossal de données en ligne, les chiffres révèlent une tendance marquée. Selon une étude universitaire, près de 30 % des sites dans le monde bloquent désormais la collecte automatique de leurs contenus par les IA, contre seulement 2 % il y a quelques années. Pour certains sites à but non lucratif, qui reposent sur un libre accès aux données, cette tendance pourrait poser des défis. Les chercheurs et les institutions publiques, en particulier, pourraient se retrouver privés de ressources précieuses. Quant aux IA elles-mêmes, elles risquent de perdre en diversité et en actualité dans leurs données disponibles. Cette situation est d’autant plus préoccupante pour les éditeurs de modèles, comme ChatGPT, qui étaient déjà limités dans leur accès aux informations récentes.

Des solutions alternatives ?

Néanmoins, les IA ne manquent pas de ressources. Elles peuvent toujours puiser dans des bibliothèques numériques, des plateformes comme Wikipedia, des blogs spécialisés, des newsletters et de nombreux autres sites d’information. Pour anticiper une éventuelle raréfaction des données, certaines entreprises d’IA établissent même des partenariats rémunérés avec des médias de renom. OpenAI, par exemple, a signé des accords avec des publications comme Le Monde et le Financial Times, permettant ainsi à ChatGPT de se référer directement à leurs articles. Bien que la situation soit encore loin d’être totalement sous contrôle, elle soulève des questions cruciales autour de la propriété intellectuelle et de la régulation de la collecte de données.

À LIRE AUSSI :