Comment les médias peuvent-ils survivre à l’IA générative ?
L’essor de l’intelligence artificielle générative fragilise profondément les médias. Aujourd’hui, plus d’un quart des Français visitent des faux sites d’informations générées par IA et recommandés par Google, « acteur majeur de la propagation de cette pollution » selon le journaliste d’investigation Jean-Marc Manach. Parallèlement, la presse subit une autre forme de prédation : l’exploitation massive de ses contenus, utilisés comme données d’entraînement ou de génération par les entreprises d’IA, sans consentement explicite ni mécanisme automatique de rémunération.
Dans ce contexte, le droit d’auteur apparaît largement insuffisant pour protéger les médias. « Le droit actuel n’est pas en adéquation avec les enjeux auxquels nous faisons face », alerte Élise Dufour, avocate spécialisée en droits des technologies et de l’IA. Face à ces menaces multiples, quelles marges de manœuvre restent-il aux médias pour se protéger et, éventuellement, tirer parti de l’IA ? Cette question était au cœur des échanges lors de l’événement organisé par le GESTE le 18 décembre.
Par Alexandra Klinnik, MediaLab de l’Information de France Télévisions
Les faux sites d’information générés par IA captent une audience notable
- Entre 14 et 16 millions d’internautes français consultent chaque mois au moins l’un des 251 sites d’information générés par IA les plus recommandés par Google. Ce chiffre ressort d’une étude publiée le 18 décembre par le média spécialisé Next, réalisée en partenariat avec Médiamétrie, qui a analysé le trafic de ces sites entre janvier et octobre 2025.

- Peu coûteux à produire, ces sites fonctionnent souvent comme de véritables fermes de contenus, principalement pilotées au départ par des professionnels du référencement (SEO). Sur des groupes Facebook, ces professionnels s’organisent pour faire connaître leurs sites et provoquer « l’étincelle », c’est-à-dire les rendre viraux. Cependant, des groupes de médias s’y mettent également comme Reworld Media, premier éditeur de presse magazine en France et 3e groupe média sur le web et les réseaux sociaux, souligne le journaliste d’investigation Jean-Marc Manach qui y a consacré une enquête pour Next.
- L’étude met également en lumière un profil d’audience très marqué. Près des trois quarts des visiteurs (74 %) ont plus de 50 ans, une population qui consulte davantage ces sites d’information générés par l’IA que les médias d’actualité traditionnels. Cette surreprésentation des publics âgés soulève des interrogations quant à leur exposition accrue à des contenus automatisés et potentiellement trompeurs : « C’est un phénomène assez massif, avec une population plus âgée qui surconsomme Internet, et qui est peut-être un peu plus fragile par rapport à la compréhension des contenus consommés », explique l’un des représentants.

- Google domine largement le trafic de ces faux sites d’information. Environ 77 % des internautes y accèdent via l’un des services de Google (Discover, Search ou Actualités), tandis que 10 % proviennent de Meta. Ces chiffres valident les alertes de la presse en ligne : Google joue un rôle central dans le succès de ces sites IA, sans encadrement, ni réponse suffisante. Discover, en particulier, s’impose comme une source majeure de trafic pour les médias en France. « L’algorithme Discover est devenu la principale source de trafic des sites journalistiques français, et une « pompe à fric » pour ceux qui sont monétisés par la publicité, majoritairement financés par la régie publicitaire de Google, qui se retrouve donc juge et partie », souligne Jean-Marc Manach.
« L’algorithme Discover est devenu la principale source de trafic des sites journalistiques français, et une « pompe à fric » pour ceux qui sont monétisés par la publicité, majoritairement financés par la régie publicitaire de Google, qui se retrouve donc juge et partie »
- Le site News of Marseille, régulièrement mis en avant par Google Discover, illustre les dérives du système. Malgré des contenus trompeurs signalés à plusieurs reprises par d’autres médias, le site continue d’être recommandé. De nombreux titres de la PQR ont dû publier des démentis pour corriger ses informations. En février, Libération avait alerté Google, qui affirmait avoir démonétisé et déréférencé le site. Pourtant, celui-ci reste mis en avant. « Le problème n’est pas l’usage de l’IA en soi, mais son emploi pour produire du spam et multiplier des contenus de faible qualité », explique Jean-Marc Manach.

- Que faire ? Médiamétrie a mis en place un baromètre régulier pour suivre l’audience, les usages et l’impact des sites générés par l’IA. Next a également développé une extension (gratuite) pour les navigateurs Chrome/firefox afin d’alerter ses utilisateurs quand ils consultent un site d’info généré par IA.
Le droit comme rempart face aux entreprises d’IA générative
Face à l’IA générative, les médias voient s’évaporer à la fois leur trafic et leurs revenus. « Le droit est lent : engager des actions contentieuses prend du temps. Or, nous n’avons pas ce temps devant nous », alerte Élise Dufour, avocate spécialisée en droit des technologies et de l’intelligence artificielle. Dans un monde où l’innovation devance largement le cadre juridique, la protection des médias devient une urgence. Plusieurs leviers juridiques ont été évoqués lors de la conférence.
S’appuyer sur le droit d’auteur et fixer le prix de ses contenus
- Si les droits d’auteur existent bel et bien, leur effectivité face aux usages des IA génératives reste problématique. Les acteurs qui ont engagé des contentieux, notamment outre-Atlantique, se heurtent à des obstacles majeurs en matière de preuve : démontrer l’exploitation effective de contenus protégés par les systèmes d’IA s’avère particulièrement complexe.
- La directive européenne de 2019 sur le droit d’auteur a introduit, pour les fournisseurs de contenus, un mécanisme d’« opt-out », leur permettant de signaler explicitement leur refus de voir leurs œuvres utilisées. Toutefois, de nombreux titulaires de droits estiment difficile, en pratique, de s’assurer du respect de cette opposition. Cette directive est entrée en vigueur peu avant l’arrivée de ChatGPT, sans avoir anticipé pleinement l’essor des IA génératives.
- Violaine Degas (Les Échos) souligne la difficulté centrale de la valorisation économique des contenus utilisés par les IA. « Pour valoriser un contenu protégé par le droit d’auteur, il faut en fixer le prix afin qu’il puisse générer une rémunération en cas d’exploitation », rappelle-t-elle.
« Pour valoriser un contenu protégé par le droit d’auteur, il faut en fixer le prix afin qu’il puisse générer une rémunération en cas d’exploitation »
- L’enjeu réside ainsi dans l’articulation entre la protection des œuvres originales et les exceptions prévues par le droit, telles que la fouille de données (TDM) ou, dans d’autres systèmes juridiques, l’usage équitable (fair use).
S’intéresser au droit des marques : une piste séduisante mais étroite
- L’IA générative peut citer ou associer des marques de presse à des contenus exacts… ou erronés. Dans les deux cas, la réputation de la marque peut être exploitée ou mise en cause.
- En théorie, le droit des marques pourrait s’appliquer. Mais en pratique, la protection n’existe que si la marque est utilisée « dans la vie des affaires », c’est-à-dire à des fins commerciales. Or, la simple citation comme source relève généralement de l’information, pas de la promotion.
- Les précédents judiciaires, notamment les affaires liées à Google AdWords, montrent que ce type de recours reste difficile à faire aboutir.
Mobiliser le droit « sui generis »
- Même si les informations sont libres par principe, leur organisation et leur structuration peuvent être protégées. « Une information, lorsqu’elle est structurée dans une base de données, devient protégeable », rappelle Elise Dufour. Le droit « sui generis » protège le producteur de la base de données, à condition de démontrer un investissement substantiel, financier, humain ou technique, dans la collecte, la vérification et l’organisation des données.
- Ce droit n’est pas automatique : il suppose une méthode rigoureuse pour prouver les investissements réalisés.
« Une information, lorsqu’elle est structurée dans une base de données, devient protégeable »
Mettre en place des outils techniques
Il est essentiel de mettre en place des outils techniques permettant d’identifier précisément les bots qui visitent les sites web (analyse des adresses IP, des comportements de navigation, des fréquences de requêtes, etc.), afin de savoir qui accède réellement aux contenus. À partir de cette identification, une véritable stratégie de gestion des bots doit être définie : bloquer certains robots, autoriser uniquement ceux qui sont identifiés et légitimes (logique de white-list), ou encore négocier des licences payantes avec les acteurs qui exploitent régulièrement ces contenus. Toute négociation suppose toutefois des bases solides : des conditions générales d’utilisation claires, des droits d’exploitation bien définis et un prix explicitement associé à l’accès ou à l’usage des contenus. Plusieurs leviers techniques et économiques peuvent être activés :
- Mettre en place le “pay per crawl” : instaurer une facturation directe appliquée à chaque passage de robots d’indexation ou de collecte sur les serveurs, en fonction du volume ou de la fréquence des accès.
- Coordonner les actions : ces mesures doivent être systématiques et concertées afin de renforcer le rapport de force face aux grandes plateformes ou aux intermédiaires spécialisés (notamment les data brokers). Les petits bots inconnus, souvent peu utiles et parfois revendeurs de données, peuvent être bloqués par défaut.

- Diversifier les modèles économiques : la presse n’est pas le seul secteur impacté par l’IA. D’autres industries font face aux mêmes enjeux et répondent en diversifiant leurs sources de revenus. Il ne s’agit plus de dépendre uniquement de la publicité, mais de valoriser l’information via des newsletters, des assistants, des services premium ou à forte valeur ajoutée.
- L’exemple d’Amazon illustre bien cette approche : l’entreprise a bloqué de nombreux bots, développé son propre chatbot de recommandation (Rufus), qui a rencontré un réel succès notamment lors du Black Friday grâce à une qualité de conseil, et déployé des usages de l’IA sur Kindle. Amazon aurait également mis en place des techniques avancées pour mesurer et surveiller l’ensemble des bots ou, à défaut, les adresses IP qui scrappent ses contenus, afin de reprendre le contrôle de leur exploitation et de leur monétisation.
En attendant d’éventuelles évolutions législatives, le face-à-face se joue désormais en partie devant les tribunaux. « Si on regarde le contentieux à date, il y a peu de décisions qui sont rendues », expose Elise Dufour. Certaines sont d’ailleurs contradictoires. Deux juridictions européennes ont ainsi adopté des positions opposées à quelques jours d’intervalle. Au Royaume-Uni, dans l’affaire Getty Images contre Stability AI, le juge n’a pas tranché en faveur des auteurs faute de preuves suffisantes. En Allemagne, des acteurs de l’industrie musicale ont obtenu gain de cause contre OpenAI, le tribunal estimant que les droits d’auteur avaient été violés. La Cour de justice de l’Union européenne devra prochainement se prononcer sur une question préjudicielle déposée en avril 2025 au sujet de la violation du droit d’auteur par les modèles d’IA. Sa décision pourrait permettre une harmonisation des règles au sein de l’UE.
Illustration : KB