Le New York Times, CNN et la chaîne australienne ABC empêchent le robot d'exploration Web GPTBot d'OpenAI d'accéder au contenu.
MaisonMaison > Blog > Le New York Times, CNN et la chaîne australienne ABC empêchent le robot d'exploration Web GPTBot d'OpenAI d'accéder au contenu.

Le New York Times, CNN et la chaîne australienne ABC empêchent le robot d'exploration Web GPTBot d'OpenAI d'accéder au contenu.

Sep 01, 2023

Le Chicago Tribune et les journaux australiens Canberra Times et Newcastle Herald semblent également avoir interdit le robot d'exploration du fabricant de Chat GPT.

Des médias tels que le New York Times, CNN, Reuters et l'Australian Broadcasting Corporation (ABC) ont bloqué un outil d'OpenAI, limitant ainsi la capacité de l'entreprise à continuer d'accéder à leur contenu.

OpenAI est à l'origine de l'un des chatbots d'intelligence artificielle les plus connus, ChatGPT. Son robot d'exploration Web – connu sous le nom de GPTBot – peut analyser des pages Web pour aider à améliorer ses modèles d'IA.

The Verge a été le premier à signaler que le New York Times avait bloqué GPTBot sur son site Web. Le Guardian a par la suite découvert que d'autres sites d'information majeurs, notamment CNN, Reuters, le Chicago Tribune, ABC et les marques Australian Community Media (ACM) telles que le Canberra Times et le Newcastle Herald, semblent avoir également interdit le robot d'exploration.

Les soi-disant grands modèles de langage tels que ChatGPT nécessitent de grandes quantités d'informations pour former leurs systèmes et leur permettre de répondre aux requêtes des utilisateurs d'une manière qui ressemble à des modèles de langage humain. Mais les entreprises à l’origine de ces projets restent souvent discrètes quant à la présence de matériel protégé par le droit d’auteur dans leurs ensembles de données.

Le blocage sur GPTBot est visible dans les fichiers robots.txt des éditeurs qui indiquent aux robots des moteurs de recherche et d'autres entités quelles pages ils sont autorisés à visiter.

"Autoriser GPTBot à accéder à votre site peut aider les modèles d'IA à devenir plus précis et à améliorer leurs capacités générales et leur sécurité", a déclaré OpenAI dans un article de blog contenant des instructions sur la façon de refuser le robot d'exploration.

Tous les points de vente examinés ont ajouté le bloc en août. Certains ont également interdit CCBot, le robot d'exploration Web pour un référentiel ouvert de données Web connu sous le nom de Common Crawl, qui a également été utilisé pour des projets d'IA.

CNN a confirmé à Guardian Australia qu'elle avait récemment bloqué GPTBot sur ses titres, mais n'a pas précisé si la marque envisageait de prendre des mesures supplémentaires concernant l'utilisation de son contenu dans les systèmes d'IA.

Un porte-parole de Reuters a déclaré qu'il révisait régulièrement son fichier robots.txt et les conditions générales du site. « Parce que la propriété intellectuelle est l’élément vital de notre entreprise, il est impératif que nous protégions les droits d’auteur de notre contenu », a-t-elle déclaré.

Les conditions d'utilisation du New York Times ont été récemment mises à jour pour rendre l'interdiction de « la suppression de notre contenu à des fins de formation et de développement de l'IA… encore plus claire », selon un porte-parole.

Depuis le 3 août, les règles de son site Web interdisent explicitement que le contenu de l'éditeur soit utilisé pour « le développement de tout programme logiciel, y compris, mais sans s'y limiter, la formation d'un système d'apprentissage automatique ou d'intelligence artificielle (IA) » sans consentement.

Les médias du monde entier sont confrontés à des décisions quant à l’opportunité d’utiliser l’IA dans le cadre de la collecte d’informations, et également à la manière de gérer le fait que leur contenu soit potentiellement aspiré dans les pools de formation par les entreprises développant des systèmes d’IA.

Début août, des médias comme l’Agence France-Presse et Getty Images ont signé une lettre ouverte appelant à une réglementation de l’IA, y compris la transparence sur « la composition de tous les ensembles de formation utilisés pour créer des modèles d’IA » et le consentement pour l’utilisation de matériel protégé par le droit d’auteur.

Google a proposé que les systèmes d'IA puissent supprimer le travail des éditeurs à moins qu'ils ne se désengagent explicitement.

Dans une soumission à l'examen du gouvernement australien sur le cadre réglementaire autour de l'IA, la société a plaidé en faveur de « systèmes de droits d'auteur qui permettent une utilisation appropriée et équitable du contenu protégé par le droit d'auteur pour permettre la formation de modèles d'IA en Australie sur une gamme large et diversifiée de données, tout en soutenir des opt-outs réalisables ».

Une recherche d'OriginalityAI, une société qui vérifie la présence de contenu d'IA, partagée cette semaine, a révélé que de grands sites Web, dont Amazon et Shutterstock, avaient également bloqué GPTBot.

Le fichier robot.txt du Guardian n'interdit pas GPTBot.

L'ABC, l'Australian Community Media, le Chicago Tribune, OpenAI et Common Crawl n'ont pas répondu dans les délais.