Liens vagabonds : Gemini, un « battage médiatique » ?

liens vagabonds 09 décembre 2023 Temps de lecture : 6 min

Après huit mois de gestation, Google dévoile son dernier-né. Gemini, présenté mercredi comme le “plus grand lancement d’IA de Google à ce jour”, a pour but de rivaliser avec les meilleurs modèles d’OpenAI. Et de rester en tête dans la compétition acharnée visant à conquérir le monde de l’IA, et sa pluie de dollars. Rappelons que Google est précurseur en la matière : en 2017, huit chercheurs de la firme ont publié un article scientifique fondateur, intitulé « Attention is all you need« , qui a ouvert la voie aux grands modèles de langage (LLM) et à l’intelligence artificielle générative.

Pour Sundar Pichai, le directeur général d’Alphabet, l’arrivée d’un tel produit, vendu comme “une machine tout-en-un” préfigure ni plus ni moins une “ère Gemini”. Cet enthousiasme est-il fondé sur des aspects réels, ou bien assiste-t-on à un énième “battage médiatique” ? Revue des premiers pas du grand modèle linguistique, dans le monde réel.

Seeing some qs on what Gemini *is* (beyond the zodiac :). Best way to understand Gemini’s underlying amazing capabilities is to see them in action, take a look ⬇️ pic.twitter.com/OiCZSsOnCc

— Sundar Pichai (@sundarpichai) December 6, 2023

Une approche polyvalente

Prendre une capture d’écran d’un graphique, analyser des centaines de pages de recherche, puis mettre à jour ce graphique avec ces nouvelles données ou encore comprendre un exercice scolaire, repérer des erreurs, proposer des réponses en images : tel serait le potentiel de Gemini. Soit un modèle multimodal, c’est-à-dire une intelligence artificielle capable d’analyser des sources d’information sous forme de textes, de sons, de codes informatiques, d’images et de vidéos. Pour The Verge, l’atout de Gemini provient de sa capacité à comprendre et interagir avec la vidéo et l’audio : “La multimodalité fait partie du plan de Gemini dès le départ. Google n’a pas entraîné de modèles séparés pour les images et la voix, comme OpenAI a créé DALL-E et Whisper. Il a construit un modèle multisensoriel depuis le début”.

Cette approche annonce une année “multi-modale” : “Il n’y aura pas de frontières entre les images, la musique, le texte, la voix (toujours une grande partie des démonstrations de Google !) et la vidéo. Juste un tas de “données”. Prévoyez que 2024 sera multi-modal”, prédit sur LinkedIn l’entrepreneuse Allie K.Miller.

Une hype à tempérer

Si cet aspect innovant suscite l’enthousiasme, il subsiste des zones d’ombre. Selon Google Deepmind, Gemini surpasse GPT4 sur 30 des 32 mesures standard de performance. “Et pourtant les marges entre eux sont minces”, nuance MIT. Les critiques suggèrent même que Gemini pourrait marquer le pic de l’engouement pour l’IA, n’apportant que peu d’innovations par rapport aux modèles existants : “Il fait beaucoup de choses très bien, mais peu de choses que nous n’avons pas déjà vues (…) C’est une grande étape pour Google mais pas nécessairement un bond géant pour le domaine dans son ensemble”.

Par ailleurs, la démo utilisée pour présenter le produit a suscité les critiques. Celle-ci aurait été “falsifiée” : des voix ont été rajoutées, des prompts simplifiés alors qu’il s’agissait d’instructions bien plus longues pour obtenir ces réponses. Un employé de Google a déclaré à Bloomberg que la vidéo donne une image irréaliste de la facilité avec laquelle on peut obtenir des résultats impressionnants avec Gemini. Les utilisateurs pourraient remettre en question la technologie et l’intégrité de l’entreprise après cette démonstration controversée. Déjà en février dernier, les scientifiques avaient remarqué une erreur factuelle dans la publicité de l’entreprise pour Bard, un incident qui avait fait chuter sa valeur boursière de 100 milliards de dollars.

CETTE SEMAINE EN FRANCE

Départs en cascade et audience en berne : à BFMTV, les problèmes s’enchaînent (Telerama)
Le média en ligne Factuel en difficulté moins d’un an après son lancement (La Lettre)
Brut et franceinfo lancent la Semaine de Brut (Media Leader)
Les nuages s’accumulent pour la presse quotidienne régionale (Le Figaro)

3 CHIFFRES

Spotify licencie 1 500 personnes afin de « réduire » ses coûts. La plate-forme suédoise, qui n’a jamais affiché de bénéfice net sur l’ensemble d’une année, avait déjà annoncé 600 suppressions de postes en janvier et 200 en juin.
Il y a 2 456 lobbyistes des énergies fossiles à la COP28 de Dubaï, soit quatre fois plus que le précédent record, rapporte Novethic.
Plus de 75 % de la population âgée de 15 à 74 ans écoute des médias audio tels que la radio, les livres audio, la musique et les podcasts, au cours d’une journée. Cette proportion est identique à celle de l’année dernière, mais il y a une diminution significative de l’écoute de la radio en direct, d’après Médiavision.

LE GRAPHIQUE DE LA SEMAINE

Source : PressGazette

NOS MEILLEURES LECTURES / DIGNES DE VOTRE TEMPS / LONG READ

Cours de sensibilisation à la blockchain soutenus par l’État et diplômes NFT : comment les chômeurs français sont incités à se tourner vers la crypto (Financial Times)
Les filtres de vieillissement de TikTok nous confrontent à notre propre mortalité (Washington Post)
« Le dilemme » : puis-je arrêter de m’informer pour me préserver ? (Le Monde)
Sam Altman, enjolivant l’apocalypse (New York Times)
Les prédictions du NiemanLab (NiamanLab)

DISRUPTION, DISLOCATION, MONDIALISATION

Comment l’IA générative pourrait aider les adversaires étrangers à influencer les élections aux États-Unis (Poynter Institute)
Les grandes entreprises technologiques financent ceux-là mêmes qui sont censés leur demander des comptes (Washington Post)

DONNEES, CONFIANCE, LIBERTÉ DE LA PRESSE,DÉSINFORMATION

Une experte en désinformation affirme avoir été licenciée par Harvard sous la pression de Meta (The Guardian)
La réversion des politiques de contenu chez Alphabet, Meta et X menace la démocratie, avertissent les experts (The Guardian)
La dernière tactique de désinformation de la Russie exploite les célébrités américaines (New York Times)

LÉGISLATION, RÉGLEMENTATION

AI Act, l’Europe a signé un accord historique pour réguler l’Intelligence artificielle (Le Monde)
Face aux “poursuites-bâillons”, l’UE s’accorde pour protéger les journalistes (l’AFP)
Pierres angulaires de l’industrie de l’IA, les modèles de fondation doivent être régulés pour protéger le droit à l’information (RSF)

JOURNALISME

Le conflit entre Israël et le Hamas est une guerre sans précédent en ce qui concerne les décès de professionnels des médias (AP)
CBC/Radio-Canada supprimera 600 emplois et abolira 200 postes vacants (Radio Canada)
La refonte du journal finlandais Karjalainen rendra tout le contenu accessible aux personnes de moins de 50 ans (Helsingin Sanomat)
La BBC remanie son site Web américain dans un effort pour s’étendre à l’étranger (Axios)
Yahoo News licencie des employés et ferme un site axé sur la génération Z (Daily Beast)
Comment The Information de Jessica Lessin a survécu à une décennie de tumulte médiatique (Vanity Fair)
Les médias se tournent vers Reddit alors que X de Musk sombre dans le chaos (The Washington Post)
80 médias espagnols réclament 550 millions d’euros à Meta pour «concurrence déloyale» (Le journal de Montréal)
Ces sites d’information déjà écrits par l’IA (Les Echos)
Les journalistes du Washington Post font grève pendant une journée (New York Times)
Taylor Swift montre que la personne de l’année du magazine Time a encore de l’importance (Poynter)

STORYTELLING, NOUVEAUX FORMATS

Malgré la trend fatigue, ces esthétiques TikTok ont dominé en 2023 (Mashable)

ENVIRONNEMENT

Quand la désinformation sur le climat est trop persuasive (France Culture)
Le patron d’ExxonMobil estime qu’on parle trop des énergies renouvelable (Financial Times)

RÉSEAUX SOCIAUX, MESSAGERIES, APPS

Les plus grands succès de TikTok sont des vidéos que vous n’avez probablement jamais vues (The Verge)
Comment Facebook aide les prédateurs à se trouver mutuellement (Platformer)
La course aux armements entre YouTube et les bloqueurs de publicité (engadget)
Twitch ferme ses portes en Corée du Sud en raison de coûts élevés (Reuters)
Les influenceurs rendent les jeunes Nigérians accros aux jeux d’argent en ligne (Rest of World)
Traquer les fausses informations sur la nouvelle fonctionnalité Channels de WhatsApp (ijnet)
Meta déconnecte les messageries de Facebook et d’Instagram (Usine Digitale)

STREAMING, OTT, SVOD

Netflix construit un univers ‘Squid Game’ en attendant une deuxième saison (New York Times)
L’accord sur les droits de la Premier League atteignent une valeur record de 6,7 milliards de livres sterling à partir de 2025-26 (BeinSports)

AUDIO, PODCAST, BORNES

Et si je vous disais que les podcasts ne sont pas condamnés ? (Slate)
Spotify annule deux podcasts acclamés : « Heavyweight » et « Stolen » (Bloomberg)
Spotify est foutu (Wired)

IMMERSION, 360, VR, AR

Une startup spécialisée dans les rêves lucides affirme que les ingénieurs peuvent écrire du code dans leur sommeil. Le travail ne sera peut-être plus jamais le même (Fortune)
Grand Theft Auto : tous les jeux et toutes les controverses expliqués (The Guardian)

Web3, BLOCKCHAIN, CRYPTO, NFT

La Finlande veut prendre la tête de la course au métavers d’ici 2035 (euractiv)

INTELLIGENCE ARTIFICIELLE, DATA, AUTOMATISATION

Le concurrent d’OpenAI, Mistral, se rapproche d’une valorisation de 2 milliards de dollars avec le soutien d’Andreessen Horowitz (Bloomberg)
Google annonce que son nouvel modèle d’IA Gemini surpasse ChatGPT dans la plupart des tests (The Guardian)
La plupart des lecteurs souhaitent que les éditeurs étiquettent les articles générés par l’IA, mais ils ont moins confiance envers les médias lorsqu’ils le font (NiemanLab)
L’IA de Musk, X.AI, va lever 1 milliard de dollars (The Information)
Runway ML s’associe avec Getty Images pour développer de nouveaux modèles vidéo d’intelligence artificielle destinés à l’industrie hollywoodienne et publicitaire (VentureBeat)
Les producteurs de documentaires appellent à des garde-fous pour l’IA générative dans une lettre ouverte (The Hollywood Reporter)
Un homme politique brésilien a admis avoir rédigé une nouvelle loi entièrement à l’aide de ChatGPT (Futurism)
Le logiciel « Animate Anyone » d’Alibaba est formé à partir de vidéos de TikTokers célèbres (404media)

Short form videos from a single photo? We’ll be able to do this for all our influencers soon!

Based on the latest cutting edge research from the Alibaba group, this is nearly here. Why is this tech important? How can influencers best use this tech?

Thread below 👇 pic.twitter.com/C4QCJCeEXP

— MyCompanions (@MyCompanionsAI) December 3, 2023

MONÉTISATION, MODÈLE ÉCONOMIQUE, PUBLICITÉ

La publicité sur X en ce moment pourrait ne pas être entièrement mauvaise – pour certains (Digiday)
Amazon et IPG Mediabrands signent un accord sur les Prime Video Ads (AdAge)

Kati Bremme et Alexandra Klinnik

Liens vagabonds : Gemini, un « battage médiatique » ?

Lire d’autres articles sur

franceinfo à propos des médias

Liens vagabonds : Gemini, un « battage médiatique » ?

Restez à la page et abonnez-vous à la newsletter !

Sur le même thème

Liens vagabonds : Google AI Overviews, la fin de l’exception française

Liens vagabonds : La confidentialité, une fonctionnalité du passé ?

Liens vagabonds : Sommes-nous entrés dans un monde post-littéraire ?

Lire d’autres articles sur

franceinfo à propos des médias