L’IA tue le grand marché au cœur du Web

L’IA mine le grand marché du Web, et un accord de poignée de main vieux de plusieurs décennies est le seul impediment.

L’IA tue le grand marché au cœur du Web

Un easy morceau de code, robots.txt, a été proposé à la fin des années 1990 pour permettre aux websites Website d'indiquer aux robots d'exploration qu'ils ne souhaitent pas que leurs données soient récupérées et collectées.

Elle était largement acceptée comme l’une des règles non officielles soutenant le Net.

À l’époque, l’objectif principal de ces robots était d’indexer les informations afin d’améliorer les résultats dans les moteurs de recherche. Google, Bing de Microsoft et d&#39autres moteurs de recherche disposent de robots d'exploration.

Ils indexent le contenu afin qu'il puisse ensuite être proposé sous forme de liens vers des milliards de consommateurs potentiels. C’est l’accord essentiel qui a créé le Website florissant que nous connaissons aujourd’hui : les créateurs partagent une abondance d’informations et échangent librement des idées en ligne parce qu’ils savent que les consommateurs visiteront et verront une publicité, s’abonneront ou achèteront quelque chose.

Aujourd’hui, cependant, l’IA générative et les grands modèles de langage changent radicalement et rapidement la mission des robots d’exploration Web.

Au lieu de soutenir les créateurs de contenu, ces outils se sont retournés contre eux.

Les robots nourrissent la Big Tech

Les robots d’exploration World-wide-web collectent désormais des informations en ligne pour alimenter des ensembles de données géants utilisés gratuitement par de riches entreprises technologiques pour développer des modèles d’IA. CCBot alimente Common Crawl, l'un des furthermore grands ensembles de données d'IA.

GPTbot fournit des données à OpenAI, la société derrière ChatGPT et GPT-4, actuellement le modèle d'IA le in addition puissant. Google appelle simplement ses données de development LLM « Infiniset », sans mentionner d'où proviennent la grande majorité des données. Bien que 12,5 % proviennent de C4, une variation nettoyée de Popular Crawl.

Les modèles utilisent toutes ces informations gratuites pour apprendre à répondre immédiatement aux queries des utilisateurs. C'est loin d'être l'indexation d'un web site Website permettant aux utilisateurs d'être redirigés vers l'œuvre originale.

Sans une offre de consommateurs potentiels, les créateurs de contenu ne sont guère incités à laisser les robots d'exploration du Internet continuer à aspirer des données gratuites en ligne.

GPTbot est déjà bloqué par Amazon, Airbnb, Quora et des centaines d'autres web pages Internet. Le CCBot de Prevalent Crawl commence également à être davantage bloqué.

« Un outil rudimentaire »

Ce qui n’a pas changé, c’est la manière de bloquer ces robots.

L'implémentation de robots.txt sur un web site Website, et l'exclusion de robots d'exploration spécifiques, est la seule possibility. Et ce n'est pas très bon.

« C'est un outil un peu rudimentaire », a déclaré Joost de Valk, ancien cadre de WordPress, investisseur technologique et fondateur de la société de promoting numérique Yoast. « Il n'a aucun fondement juridique et est essentiellement géré par Google, même s'ils prétendent le faire en collaboration avec d'autres moteurs de recherche. »

Il est également ouvert à la manipulation, surtout compte tenu de l’appétit vorace pour les données d’IA de qualité.

La seule chose qu'une entreprise comme OpenAI doit changer est le nom de son robotic d'exploration pour contourner toutes les règles d'interdiction mises en spot par les gens à l'aide de robots.txt, a expliqué de Valk.

Le fichier robots.

txt étant volontaire, les robots d'exploration du Website peuvent également simplement ignorer les guidelines de blocage et siphonner les informations d'un web page de toute façon. Certains robots, comme celui de Brave, un moteur de recherche additionally récent, ne prennent pas la peine de divulguer le nom de leur robotic, ce qui rend impossible son blocage.

« Tout ce qui est en ligne est aspiré dans le vide pour les modèles », a déclaré Nick Vincent, professeur d'informatique qui étudie la relation entre les données générées par l'homme et l'IA.

« Il se passe tellement de choses sous le capot. Au cours des 6 prochains mois, nous regarderons en arrière et voudrons évaluer ces modèles différemment. »

Réaction des robots IA

De Valk prévient que les propriétaires et les créateurs de contenu en ligne comprennent peut-être déjà trop tard les risques liés à l’autorisation de ces robots de récupérer leurs données gratuitement et de les utiliser sans discernement pour développer des modèles d’IA.

« Pour l'immediate, ne rien faire signifie : « Je suis d'accord avec mon contenu dans tous les IA et LLM du monde », a déclaré de Valk. « C'est tout simplement fake. Une meilleure variation de robots.

txt pourrait être créée, mais ce serait très étrange si cela était fait par les moteurs de recherche et les grands acteurs de l'IA eux-mêmes. »

Plusieurs grandes entreprises et internet sites Internet ont récemment réagi, certains commençant à déployer robots.txt pour la première fois.

Au 22 août, 70 des 1 000 websites Website les additionally populaires ont utilisé robots.txt pour bloquer GPTBot depuis qu'OpenAI a révélé le robot d'exploration il y a approximativement trois semaines, selon Originality.ai, une société qui vérifie le contenu pour voir s'il est généré par l'IA ou s'il est généré par l'IA.

plagié.

La société a également constaté que 62 des 1 000 web pages Net les in addition populaires bloquent CCBot de Common Crawl, et un nombre croissant ne le font que cette année, à mesure que la sensibilisation à l'exploration de données pour l'IA s'est accrue.

Pourtant, elle n’est pas exécutoire.

N'importe quel robot d'exploration pourrait ignorer un fichier robots.txt et collecter toutes les données trouvées sur une web page Net, le propriétaire de la webpage n'ayant probablement aucune idée de ce qui s'est produit. Même si le fichier robots.

txt avait une foundation légale, son objectif first n'a pas grand-chose à voir avec les informations disponibles sur World wide web utilisées pour créer des modèles d'IA.

« Il est peu possible que Robots.txt soit considéré comme une interdiction légale d'utilisation des données », selon Jason Schultz, directeur de la Technological know-how Legislation & Plan Clinic de NYU.

« Cela visait principalement à signaler que l'on ne voulait pas que son website World wide web soit indexé par les moteurs de recherche, et non à signaler que l'on ne voulait pas que son contenu soit utilisé pour l'apprentissage automatique et la formation à l'IA. »

« C'est un champ de mines »

Cette activité dure depuis des années. OpenAI a dévoilé son premier modèle GPT en 2018, après l'avoir formé sur BookCorpus, un ensemble de données de milliers de livres indépendants ou automobile-publiés.

Common Crawl a débuté en 2008 et son ensemble de données est devenu obtainable au public en 2011 by means of le stockage cloud fourni par AWS.

Bien que GPTBot soit désormais plus largement bloqué, Typical Crawl constitue une menace as well as importante pour toute entreprise préoccupée par le fait que ses données soient utilisées pour entraîner le modèle d'IA d'une autre entreprise. Ce que Google a fait pour la recherche sur Internet, Typical Crawl le fait pour l'IA.

« C'est un champ de mines », a déclaré Catherine Stihler, PDG de Resourceful Commons. « Nous avons mis à jour notre stratégie il y a seulement quelques années, et maintenant nous sommes dans un monde différent. »

Artistic Commons a été lancé en 2001 comme un moyen permettant aux créateurs et aux propriétaires d'obtenir des licences pour une utilisation sur World-wide-web grâce à une substitute au cadre demanding du droit d'auteur, connu sous le nom de « copyleft ».

Les créateurs et les propriétaires conservent leurs droits, tandis qu'une licence Commons permet aux utilisateurs d'accéder au contenu et de créer des œuvres dérivées. Wikipédia fonctionne sous licence Creative Commons, tout comme Flickr, Stack Overflow et ProPublica, ainsi que de nombreux autres websites World-wide-web bien connus.

Dans le cadre de sa nouvelle stratégie quinquennale, qui souligne « l'utilisation problématique du contenu ouvert » pour previous les technologies de l'IA, Imaginative Commons cherche à rendre le partage du travail en ligne additionally « équitable », grâce à une « approche multifrontale, coordonnée et à grande échelle qui transcende le droit d'auteur.

Le gorille de 160 milliards de pages

Frequent Crawl, by using CCBot, contient peut-être le additionally grand référentiel de données jamais collecté sur Web. Depuis 2011, il a exploré et enregistré des informations provenant de 160 milliards de internet pages Net et ce n'est pas fini. En règle générale, il take a look at et enregistre environ 3 milliards de pages Website chaque mois.

Son énoncé de mission indique qu'il s'agit d'un projet de « données ouvertes » visant à permettre à chacun de « satisfaire sa curiosité, d'analyser le monde et de poursuivre des idées brillantes ».

La réalité est devenue très différente aujourd’hui. La quantité massive de données qu'il détient et continue de collecter est utilisée par certaines des furthermore grandes entreprises du monde pour créer des modèles pour la plupart propriétaires.

Si une grande entreprise technologique ne gagne pas déjà de l’argent grâce à ses résultats en matière d’IA (OpenAI propose de nombreux expert services payants), elle envisage de le faire à l’avenir.

Certaines grandes entreprises technologiques ont cessé de révéler où elles obtiennent ces données. Cependant, Widespread Crawl a été et continue on d’être utilisé pour développer de nombreux modèles d’IA puissants.

Cela a aidé Google à créer Bard. Cela a aidé Meta à entraîner Llama. Cela a aidé OpenAI à créer ChatGPT.

Prevalent Crawl alimente également The Pile, qui héberge davantage d’ensembles de données extraits du travail d’autres robots d’exploration. Il a été largement utilisé sur des projets d'IA, notamment Llama et un LLM de Microsoft et Nvidia, appelé MT-NLG.

Pas comique

L'un des téléchargements les moreover récents de The Pile en juin est une vaste selection de bandes dessinées, comprenant l'intégralité des œuvres d'Archie, Batman, X-Men, Star Wars et Superman.

The Pile héberge également un significant éventail de livres protégés par le droit d’auteur, comme l’a récemment rapporté The Atlantic.

« Il y a une différence entre l'intention des robots d'exploration et la manière dont ils sont utilisés », a déclaré Schultz de NYU.

« Il est très difficile de contrôler ou d'insister pour que les données soient utilisées d'une manière particulière. »

En ce qui concerne The Pile, même s'il admet que ses données regorgent de matériel protégé par le droit d'auteur, il affirme dans son doc strategy fondateur que « on reconnaît peu le fait que le traitement et la distribution de données appartenant à d'autres peuvent également constituer une violation. de la loi sur le droit d'auteur.

Au-delà de cela, le groupe, qui fait partie d'EleutherAI, a fait valoir que son utilisation du matériel est considérée comme « transformatrice » selon la doctrine de l'utilisation équitable, malgré les ensembles de données contenant des travaux relativement inchangés. Il a également admis qu'il devait utiliser du contenu intégral protégé par le droit d'auteur « afin de produire les meilleurs résultats » lors de la formation des LLM.

De tels arguments en faveur d’une utilisation équitable par les robots d’exploration et les projets d’IA sont déjà mis à l’épreuve.

Des auteurs, des artistes visuels et même des développeurs de code resource poursuivent OpenAI, Microsoft et Meta parce que leur travail initial a été utilisé sans leur consentement pour former quelque selected dont ils ne tirent aucun bénéfice.

« Il n'existe aucun univers où mettre quelque chose sur Web autorise une utilisation commerciale gratuite, illimitée et sans consentement du travail de quelqu'un », a récemment écrit Steven Sinofsky, ancien cadre de Microsoft et associé de la société de capital-risque Andreessen Horowitz, sur X.

Aucune résolution en vue

Pour l’instant, aucune résolution claire n’est en vue.

« Nous sommes aux prises avec tout cela maintenant », a déclaré Stihler, PDG de Innovative Commons. « Il y a tellement de queries qui reviennent sans cesse : l'indemnisation, le consentement, le crédit. À quoi tout cela ressemble-t-il avec l'IA ? Je n'ai pas de réponse. »

De Valk a déclaré que Artistic Commons, avec sa méthode visant à faciliter des licences de droits d'auteur as well as larges permettant d'utiliser des œuvres détenues sur Web, a été suggéré comme modèle achievable de consentement lorsqu'il s'agit de développement de modèles d'IA.

Stihler n’en est pas si sûr. En matière d’IA, il n’existe peut-être pas de resolution one of a kind.

Les licences et les droits d'auteur, même un accord plus versatile de kind Commons, ne fonctionneront probablement pas. Remark obtenir une licence pour l'ensemble d'Internet ?

« Tous les avocats à qui je parle disent qu'une licence ne va pas résoudre le problème », a déclaré Stihler.

Elle en parle régulièrement aux parties prenantes, des auteurs aux dirigeants d'entreprises d'IA.

Stihler a rencontré des représentants d'OpenAI furthermore tôt cette année et a déclaré que la société discutait de la manière de « récompenser les créateurs ».

Pourtant, on ne sait pas vraiment « à quoi ressemblent réellement les biens communs à l’ère de l’IA », a-t-elle ajouté.

« Si nous n'y prenons pas garde, nous finirons par fermer les communs »

Compte tenu de la quantité de données que les robots d’exploration du Net ont déjà récupérées et transmises aux grandes entreprises technologiques, et du peu de pouvoir dont disposent les créateurs de ce contenu, World-wide-web tel que nous le connaissons pourrait changer radicalement.

Si publier des informations en ligne signifie donner des données gratuitement à un modèle d’IA qui vous concurrencera pour les utilisateurs, alors cette activité pourrait tout simplement s’arrêter.

Il y a déjà des signes de cela : de moins en moins de codeurs de logiciels humains visitent le internet site Web de concerns-réponses Stack Overflow pour répondre à leurs questions. Pourquoi? Parce que leurs travaux antérieurs ont été utilisés pour previous des modèles d’IA qui répondent désormais automatiquement à bon nombre de ces questions.

Stihler a déclaré que l'avenir de toutes les œuvres créées en ligne pourrait bientôt ressembler à l'état actuel du streaming, avec un contenu verrouillé derrière des fiefs d'abonnement « Moreover » qui deviennent de in addition en furthermore coûteux.

« Si nous n'y prenons pas garde, nous finirons par fermer les communs », a déclaré Stihler. « Il y aura davantage de jardins clos, davantage de choses auxquelles les gens n'auront pas accès.

Ce n'est pas un modèle réussi pour l'avenir de la connaissance et de la créativité de l'humanité. »