La plupart des gens pensent que les modèles d’IA générative vont continuer à s’améliorer indéfiniment, comme cela a été le cas jusqu’à présent. Mais quand on connaît les défis liés à l’entraînement des modèles d’IA, on comprend vite que ce n’est pas si simple.
L’amélioration des modèles d’IA générative est directement liée à la qualité et à la quantité des données sur lesquelles ces modèles sont formés. Et contrairement à ce que l’on pourrait penser, les ensembles de données utilisés pour entraîner ces modèles d’IA ne proviennent pas principalement de données propriétaires détenues par les grandes entreprises du secteur comme OpenAI ou Anthropic. En réalité, ces ensembles de données sont en grande partie composés de données publiques, accessibles en ligne, créées par des utilisateurs du monde entier.
Que ce soit un article de blog, une vidéo YouTube, un commentaire sur un fil de discussion Reddit, ou toute autre forme d’activité en ligne, chaque contenu public contribue potentiellement à l’entraînement des IA génératives. Cette dépendance aux données publiques du Web a conduit les entreprises d’IA à utiliser des robots d’exploration pour parcourir Internet, collecter ces informations et les intégrer dans leurs modèles.
Aujourd’hui, cette pratique suscite de plus en plus de préoccupations parmi les créateurs de contenu et les propriétaires de sites web. Ils voient leurs données exploitées sans leur consentement explicite et sont désormais nombreux à réagir.
Un rapport de la Data Provenance Initiative explique tout
Le rapport intitulé Consent in Crisis: The Rapid Decline of the AI Data Commons, publié par la Data Provenance Initiative, un collectif bénévole de chercheurs en IA, explique en détail cette problématique. Le rapport met notamment en lumière qu’un nombre croissant d’organisations, qui se sentent menacées par l’IA générative, prennent des mesures pour protéger leurs données en les rendant inaccessibles aux robots d’exploration.
Shayne Longpre, chercheur principal de la Data Provenance Initiative, explique que cette pratique n’est pas nouvelle, mais qu’elle a pris une importance particulière à l’ère de l’IA générative. La technologie utilisée pour empêcher les robots d’explorer un contenu sur le Web, notamment le fichier robots.txt, existe depuis 1995. Ce fichier permet aux robots d’indexation de savoir quelles parties d’un site web ils sont autorisés à explorer. À l’origine, cette technologie était principalement utilisée pour orienter les moteurs de recherche comme Google ou Bing.
Robots.txt et les enjeux de l’exploration du Web
De nombreux sites web influents ont commencé à utiliser le fichier robots.txt pour interdire l’accès à leurs contenus. Cette tendance est particulièrement forte chez les sites web monétisés par la publicité ou les abonnements, comme les sites d’actualités ou les grandes plateformes de toutes sortes. Ces acteurs craignent que l’IA générative ne compromette leurs revenus en utilisant leurs contenus sans compensation. Ils adoptent alors des mesures pour cloisonner leurs données, ce qui a des répercussions directes sur la qualité des ensembles de données disponibles pour l’entraînement des IA.
Le fichier robots.txt joue un rôle clé dans cette dynamique. Bien qu’il soit largement respecté par les robots d’exploration, il n’a pas de force légale. Les conditions d’utilisation des sites web, en revanche, sont juridiquement contraignantes mais ne peuvent pas être interprétées par les machines. Cela crée un dilemme pour les sites web, qui doivent non seulement définir quelles parties de leur contenu sont accessibles, mais aussi s’assurer que ces restrictions sont respectées par une multitude de robots d’exploration différents.
Selon Longpre, cette situation impose une charge excessive aux sites web, qui doivent naviguer entre des milliers de robots pour identifier ceux qui respectent leurs préférences. De plus, bien que les grandes entreprises d’IA comme Anthropic affirment respecter les restrictions imposées par robots.txt, il existe des allégations selon lesquelles certaines d’entre elles ne le font pas. Cette divergence entre les déclarations officielles et les actions réelles des entreprises ajoute une couche de complexité à un problème déjà épineux.
Un avenir incertain pour l’IA générative
Le rapport de la Data Provenance Initiative analyse également l’impact de ces restrictions croissantes sur les ensembles de données d’entraînement utilisés pour les modèles d’IA générative. Par exemple, l’ensemble de données C4, largement utilisé et créé en 2019, a déjà vu environ 5 % de ses données révoquées en moins d’un an en raison des nouvelles restrictions. Si 5 % peut sembler négligeable, il est important de noter que cette part concerne principalement des données de haute qualité, provenant de sites d’actualités, d’universités et de plateformes sociales réputées.
Ce déplacement progressif vers des données de moindre qualité pose un problème majeur pour les IA génératives. Si les futures versions de modèles comme ChatGPT ou Perplexity s’appuient de plus en plus sur des sources telles que des blogs personnels ou des sites de commerce électronique, la qualité des réponses fournies par ces modèles pourrait en souffrir. En effet, ces sources ne possèdent pas le même niveau de rigueur et de véracité que les grandes institutions d’information ou académiques.
En outre, la répartition des données d’entraînement pourrait s’éloigner de plus en plus des actualités de haute qualité, des forums académiques et des plateformes sociales, au profit de contenus moins fiables ou moins pertinents. Cette évolution soulève des questions sur la capacité des IA génératives à fournir des informations précises et fiables à l’avenir, surtout dans des domaines complexes où la qualité des données est cruciale.
Les réponses potentielles des entreprises d’IA
Face à la réduction des ressources disponibles, les entreprises d’IA devront probablement adapter leurs stratégies pour continuer à former leurs modèles. Une des solutions envisageables est l’acquisition de licences pour accéder à des données protégées. Cela permettrait aux grandes entreprises d’IA de sécuriser des sources de données précieuses, mais cette approche pourrait également entraîner une concentration du pouvoir entre les mains de quelques acteurs majeurs du secteur. Cela exacerbe les problèmes de concurrence et soulève des préoccupations antitrust.
Une autre solution réside dans l’utilisation croissante de données synthétiques. Ces données, créées artificiellement, peuvent être utilisées pour entraîner des modèles d’IA sans avoir besoin d’accéder à des contenus réels protégés par des droits d’auteur ou des restrictions d’accès. Toutefois, cette approche comporte des risques. L’entraînement sur des données synthétiques de mauvaise qualité peut entraîner ce que l’on appelle « l’effondrement des modèles« , une dégradation progressive des performances des IA.
Cela dit, lorsque les données synthétiques sont produites dans des environnements contrôlés, elles peuvent offrir des opportunités intéressantes. Elles permettent de cibler des domaines sous-développés et de générer des contenus de haute qualité qui peuvent compenser la perte d’accès aux données réelles. Cependant, il est peu probable que les modèles basés uniquement sur des données synthétiques puissent atteindre le même niveau de performance que ceux entraînés sur des données réelles, notamment en raison de la complexité et de la diversité des situations du monde réel.
Vers de nouvelles normes d’accès aux données
Ce rapport de la Data Provenance Initiative propose également une réflexion sur l’avenir de l’accès aux données pour l’entraînement des IA. Longpre parle de « crise du consentement » pour décrire la situation actuelle, où les créateurs de données peinent à exprimer clairement leurs préférences en matière d’utilisation de leurs contenus. Les protocoles existants, comme robots.txt ou les conditions d’utilisation, ne sont pas conçus pour l’IA générative.
Selon lui, il est nécessaire d’avoir de nouvelles normes qui permettraient aux créateurs de données de définir de manière plus précise et granulaire leurs préférences. Cela pourrait inclure la création de mécanismes qui facilitent l’expression de ces préférences et garantissent leur respect par les robots d’exploration. Cependant, il reste à voir qui prendra l’initiative de développer et d’implémenter ces nouvelles normes. Les entreprises d’IA pourraient être réticentes à adopter des mesures qui limiteraient leur accès aux données, tandis que les régulateurs et les créateurs de contenu pourraient pousser pour des restrictions plus strictes.
L’évolution de l’accès aux données du Web pour l’entraînement des IA génératives est un enjeu complexe et multiforme. La bataille pour le contrôle de ces données ne fait que commencer, et les décisions qui seront prises dans les années à venir auront des conséquences profondes sur le développement de l’IA, la qualité des services qu’elle pourra offrir, et la manière dont nous interagissons avec cette technologie.