L'IA s'invite dans la newsroom

Par Alexandra Yeh, France Télévisions, Direction de la Prospective

En 2013, les directeurs de l’info de l'agence de presse US The Associated Press ont fait un pari audacieux : automatiser la rédaction de certaines dépêches. AP fut ainsi l’un des premiers médias à introduire l’intelligence artificielle dans les salles de rédaction, en commençant par sous-traiter la rédaction des compte-rendus sportifs et des résultats trimestriels d’entreprises.

Quatre ans plus tard, l’IA s’est officiellement invitée dans le quotidien des journalistes et infuse désormais tous les maillons de la chaîne de production de l’info. Dans un rapport sur ce que l’on nomme désormais le "journalisme augmenté", AP nous en dit plus sur le potentiel de l’IA dans le journalisme.

Capture d’écran 2017-04-07 à 11.13.01

Qu’est-ce que le journalisme augmenté ?

Non, on ne parle pas ici de réalité augmentée, encore moins de revendications salariales. On parle d'un journalisme dopé à l'intelligence artificielle, enrichi avec des algorithmes qui sont désormais parties prenantes dans la fabrication de l'info.

C'est un journalisme qui dote ses professionnels de nouveaux outils pour les aider à produire une info plus précise, plus documentée, et à plus grande échelle. Car l'IA permet, comme le souligne le rapport, de rationaliser les workflows, de décharger les journalistes des tâches répétitives et peu qualifiées, d'industrialiser le traitement des données, d'identifier des tendances, de mettre en forme l'info sous divers formats (texte, vidéo, audio…) ou encore d'analyser les contenus pour mieux les indexer.

Ses avantages ? Une rapidité d'exécution incomparable et une fiabilité bien supérieure à celle de l'humain. Car l'intelligence artificielle ne fait pas de fautes d'orthographe ou d'erreurs de calcul, et est capable de traiter à la chaîne des quantités massives de données, là où nous, simples mortels, sommes soumis à notre dure condition d'êtres faillibles.

Une telle puissance de frappe n'est pas de trop pour certaines investigations de grande envergure. Dans le cas des Panama Papers, le recours à l'IA a même été indispensable pour traiter les 2,6 terabytes - soit 26.000 gigas ! - de données et transformer les emails et les documents de Mossack Fonseca en données exploitables par les journalistes.

Source : Süddeutsche Zeitung

Source : Süddeutsche Zeitung

Et alors que "les médias et les internautes créent 2 milliards d'images et 1 milliard d'heures de vidéo par jour", selon Justin Pang, directeur des partenariats chez Google, les journalistes ont plus que jamais besoin de l'intelligence artificielle pour analyser, hiérarchiser et indexer ces quantités colossales de données.

Mais pour tirer pleinement parti de l'IA et l'intégrer efficacement dans les salles de rédaction, encore faut-il comprendre les rouages de cette technologie.

Petit lexique de l'IA

Traitement du langage naturel, reconnaissance vocale, apprentissage supervisé… Sous le mot-valise d'IA se cache une large palette d'outils techniques qui s'avèrent extrêmement utiles au travail journalistique. AP revient sur les cas d'usage de l'IA et les termes techniques à connaître.

Capture d’écran 2017-04-07 à 14.53.07

Machine learning

Le machine learning désigne l'apprentissage automatique par la machine et peut être supervisé ou autonome. 

L'apprentissage supervisé consiste à nourrir la machine avec une base d'exemples de référence pour lui apprendre à repérer les données qui s'en écartent. Prenons l'exemple d'un journaliste d'investigation qui suspecterait une entreprise d'être impliquée dans des activités frauduleuses, mais n'aurait pas assez de temps pour éplucher tous les documents financiers à sa disposition. L'apprentissage supervisé de l'IA pourrait lui permettre de sous-traiter le travail : en nourrissant la machine avec des documents valides, le journaliste apprendra à la machine à détecter ceux qui ne sont pas conformes au modèle et donc à repérer d'éventuelles irrégularités.

A l'inverse, l'apprentissage autonome consiste à nourrir la machine avec des données non structurées et à la laisser repérer des liens ou des tendances, sans la guider.

Traitement du langage

On distingue ici le traitement automatique du langage naturel (natural language processing, NLP) de la génération automatique de texte (natural language generation, NLG).

Avec la génération automatique de texte, la machine se contente de compléter des textes pré-écrits. C'est le cas du Quakebot du Los Angeles Times, par exemple, qui a été entraîné pour tweeter automatiquement les séismes recensés en Californie :

Capture d’écran 2017-04-07 à 17.25.04

Le traitement automatique du langage naturel, en revanche, est capable de comprendre et contextualiser la donnée pour rédiger des textes de toutes pièces :

Capture d’écran 2017-04-07 à 17.27.36

Speech to text vs. text to speech

La traduction ici est assez transparente : le speech to text désigne la transcription d'un document audio en un texte écrit, et le text to speech désigne la transposition audio d'un texte écrit. Le text to speech est la technologie principale sur laquelle reposent les assistants vocaux comme Alexa ou Google Home, et qui de plus en plus sont investis par les médias pour proposer de l'info au format audio. Le speech to text, lui, permet par exemple d'automatiser la production de sous-titres pour les vidéos.

Quels impacts de l'IA sur le journalisme ?

Chez AP, l'arrivée de l'IA et l'automatisation des contenus sportifs et financiers a déjà permis de libérer 20% de la charge de travail des journalistes. Autant de temps qu'ils peuvent désormais consacrer à la production de contenus plus complexes et à plus forte valeur ajoutée.

Et à ceux qui craignent pour leur emploi, l'étude répond simplement que si l'IA peut augmenter le journalisme, elle ne remplacera pas les journalistes. Simplement, elle transformera leur métier - et elle le fait d'ailleurs déjà : de plus en plus, les journalistes seront amenés à collaborer avec la machine, mais aussi et surtout avec les professionnels de la robotique. Data scientists et "computational journalists" seront de plus en plus nombreux dans les rédactions pour continuer à entraîner l'IA et tirer pleinement parti des potentialités qu'elles nous offrent. D'ores et déjà, le New York Times a adapté sa politique de recrutement et recherche de plus en plus de journalistes capables de coder.

Quid des accusation de biais des algorithmes ? Faux procès, selon Lisa Gibbs, global business editor chez AP : "les erreurs des algorithmes découlent généralement d'un problème avec les données de base [celles avec lesquelles on a nourri l'IA, NDLR]. Si la donnée est mauvaise, le résultat sera mauvais". Finalement, c'est cela le vrai challenge : réussir à construire une IA qui réfléchit comme l'humain, mais qui ne reproduit pas ses préjugés et ses erreurs.

c76bea53b07289ade01ea9bac71fb8c6