Suivi de l’opinion : nous avons testé les Big Data et l’IA

 

L’élection de Trump n’a été prévue ni par les rédactions, ni par les sondages. Mais par des machines

Avant les scrutins français, nous voulions donc en avoir le coeur net.

Le pari

Pouvait-on grâce aux énormes nouvelles capacités informatiques, aux technologies cognitives, au « data-mining » et aux progrès extraordinaires réalisés en matière de traitement du langage naturel et des images, tester une nouvelle manière de scruter l’opinion ?

brain

En nous éloignant des sondages, pouvions-nous donc, grâce à l’analyse des signaux émanant de millions de messages publics triés par intelligence artificielle surtout sur les réseaux sociaux, être — un peu avant les élections— plus perspicace et au plus près des « vraies » préoccupations des gens ?

Et, avec encore plus d’ambition, caresser l’espoir de :

  • Réduire la distance entre la bulle médiatique et les vrais gens.
  • Proposer à la rédaction un outil pour ne plus rater des mouvements de fond de l’opinion (Brexit, Trump, Fillon, Hamon, …)
  • Diminuer donc, à terme, la défiance du public à l’égard des médias.

En gros: Make Journalism Great Again !

Tout simplement ! 

Alors, nous avons fait le test !

Avec la firme Havas Cognitive qui, travaillant depuis plusieurs mois avec l’intelligence artificielle d’IBM Watson, a développé une plateforme « Eagle AI » , qui a notamment anticipé, lors des derniers mois de la campagne électorale US, les intentions de votes des Américains, avec succès.

Mais sans méthodologie aguerrie, sur un nouveau territoire, dans une nouvelle langue, et avec de modestes moyens, nous n’allions pas tenter de deviner des intentions de vote. Le MédiaLab a donc opté pour un « proof of concept » sur un thème unique, mais central : « monde ouvert vs. monde fermé ».

C’est-à-dire tenter de déceler une structure de l’opinion via ce prisme par rapport à l’Europe, la mondialisation, le protectionnisme, le patriotisme, le repli sur soi, l’accueil des réfugiés, l’immigration, les frontières, etc…

Avant de pouvoir analyser, Ekino, filiale Technologie et Innovation d’Havas a donc recueilli de la data, donné à « manger » aux machines d’IBM Watson, qui ont commencé à apprendre, puis à classer.

Près d’un million de tweets et des milliers de commentaires YouTube, apparus liés à cette problématique entre le 1er mars et le 6 avril 2017, ont été analysés. Mais pas de Facebook Live, de Periscope ou de commentaires sur les sites de France Télévisions.

twitter

Qu’avons-nous appris ?

1/ Sur le fond, une forte majorité de signaux pointent vers un monde fermé.

Le test fait apparaître 56% de tweets « fermés », c’est-à-dire penchant vers un monde fermé, vers le protectionnisme et le repli sur soi. Bien plus vaste que l’estimation du vote FN, ce vivier aurait aussi permis de voir monter l’intention de vote Mélenchon plus tôt.

Et attention, il n’y a pas 40% qui penchent vers un monde ouvert. La partie neutre a été très importante dans les résultats pour représenter près de 20%. Ce qui laisse un faible attrait – autour de 25% -- pour l’ouverture, l’accueil, l’attrait pour l’autre et la mondialisation.

ekino

2/ Sur la forme, nous avons davantage fonctionné dans une co-production hommes/machines que profité d’une pure automatisation.

Les API américaines ont du mal à classer certains contenus, notamment ceux qui sont ironiques. Aux Etats-Unis, les messages sont plus directs. D’où, chez nous, une indispensable coopération dans le tri et le premier écrémage.

(L’API de mesure des sentiments a également été utilisée, mais pas directement pour classer les contenus entre ouvert et fermé).

3/ Complémentaire et très expérimental, cet outil est à utiliser, pour l’instant, en complément d’un sondage et pour donner une évolution de l’opinion.

Il est plus pertinent sur la durée, moins de manière ponctuelle. Pour faire du Big Data, il faut du « Big », c’est-à-dire beaucoup de données !

Autres leçons de l’exercice :

 Les tweets constituent un bon outil, une bonne source à utiliser.

Twitter a été représentatif. Les événements d’actualité (débats entre candidats, attentats de Londres ….) ont un fort impact sur le volume de tweets, très corrélés à l’info. Nous avons observé 25.000 tweets quotidiens en moyenne sur ces thèmes avec des pics autour de 100.000.

YouTube est beaucoup moins pertinent que Twitter pour l’analyse, car l’API fait remonter les commentaires ayant le plus de votes. La plateforme vidéo fonctionne aussi mieux en anglais et propose pour l’instant trop de résultats neutres. Mais, , avec des textes plus longs et plus écrits, elle fait ressortir moins de trolls.

Faut-il passer à l’échelle et industrialiser cet outil ?

Oui, mais en identifiant mieux les vrais lieux de débats, là où les gens discutent, en utilisant d’autres supports d’analyse comme les forums, notamment des jeux vidéo, très utilisés par certaines sphères politiques (en particulier le FN).

Il peut permettre de voir apparaître des thèmes peu traités par les médias dans des lieux qui échappent aux rédactions, où se développent des idéologies insoupçonnées.

L’outil, utilisé en relation avec l’actualité, peut permettre à la rédaction de suivre des évènements à la minute, comme des tendances étalées dans le temps. Il embrasse la masse et permet de voir comment des lignes de force se mettent en place.

2

Il peut être très pertinent pour suivre la préparation d’un referendum, plus facile à traiter (oui ou non), des grands mouvements d’opinion, ou des bassins d’expression en scrutant le plus grand nombre de support d’expressions publiques.

Chemin faisant, l’outil aura probablement une fonction différente des sondages.

Mais l’outil est encore au stade infantile : il faudra une IA plus entraînée et des bases de données plus importantes. Il faudra aussi lui apprendre à classifier plus finement, notamment les trolls, et à travailler plus sur les nuances.

Conclusion

L’enjeu était de voir si ce prototype d’analyse Big Data / Intelligence Artificielle pouvait s’avérer utile à la compréhension des enjeux de l’élection présidentielle et servir la rédaction.  

Pour identifier des signaux faibles, l’IA doit continuer à travailler avec des humains. C’est encore prématuré d’utiliser l’IA seule.

Ce n’est donc pas encore une nouvelle martingale de prédictions. Mais le résultat est prometteur.

A suivre !

 

 

 

A lire aussi

  • Aucun article
  • Padakhor

    Sauf que cette approche écarte par définition les opinions des personnes qui ne communiquent pas ou peu par internet: personnes âgées, zones blanches ou personnes qui se passent très bien des réseaux sociaux.

  • http://rubino.fr joelrubino

    Ce n'est pas un suivi de l'opinion des français.
    Les medias sociaux ne sont pas, au sens statistique du terme, un échantillon représentatif de la population. Les résultats que vous avez obtenus ne représentent donc, au mieux, qu'une analyse d'une partie de la population, à savoir, celle qui s'exprime sur ce type de support.