À I/O, l’IA imite l’humain

Par Jérôme Derozard, consultant et entrepreneur. Billet invité

La séquence n’est pas passée inaperçue. Au cours de la keynote d’ouverture de la conférence Google I/O qui s’est tenue début mai, Sundar Pichai, PDG de Google, a présenté une démo qui semblait tout droit sortie d’un film de science-fiction.

On y voyait un utilisateur demander à Google Assistant de prendre une réservation pour lui. Mais au lieu de passer par un service de réservation en ligne, l’agent virtuel appelait directement le restaurant en se faisant passer pour un humain, imitant ses intonations et hésitations. Sundar Pichai indiquait que cette nouvelle plateforme nommée « Duplex » s’appuyait sur les technologies les plus avancées de Google en matière d’intelligence artificielle et était testée en conditions réelles. Si aucune date de lancement n’a été fournie, cette démo a déclenché de nombreuses réactions, notamment chez les sceptiques de l’I.A. Est-il « éthique » pour une machine d’appeler un humain sans s’identifier comme un robot ? Certains télé-marketeurs appellent bien leurs prospects avec une annonce préenregistrée simulant l’appel d’un vrai conseiller.

Dans le cas de Duplex, il ne s’agit pas d’une simple annonce vocale mais d’une intelligence artificielle capable d’imiter un humain pour arriver à ses fins, avec le risque qu’elle soit détournée par des escrocs cherchant à submerger une entreprise d’appels par exemple. Faudra-t-il que les entreprises mettent en place un « captcha » sur leur ligne téléphonique pour bloquer les appels de « robots » ? Google a en tout cas annoncé que Duplex s’identifierait à présent comme robot au début de chaque conversation.

Google est déjà confronté à des « bots » de plus en plus sophistiqués sur le web

Une IA, des usages concrets

Au cours de sa keynote, Sundai Pichar a tout de même tenté de montrer l’impact positif de l’I.A. en multipliant les cas concrets d’utilisation. Ainsi les technologies de reconnaissance vocale couplées à l’analyse visuelle permettent de générer des sous-titres sur les vidéos YouTube, en plaçant chaque phrase à côté de son locuteur ; une fonctionnalité particulièrement utile lors de débats passionnés. Autre cas d’utilisation, la coloration automatique de photos en noir et blanc ; on peut imaginer une application future pour restaurer les films en noir et blanc, avec amélioration de la qualité des images et pourquoi pas du son pour redonner une vie (commerciale) aux vieux films.

Les progrès de l’I.A. touchent bien sûr en priorité les produits Google. Ainsi, grâce à la technologie « wavenet » développée par DeepMind, six nouvelles voix de synthèse arrivent sur Google Assistant (en anglais pour l’instant) et des voix de célébrités pourraient prochainement faire leur apparition, dont celle de John Legend (Morgan Freeman aurait sans doute été plus adapté). Par ailleurs Google continue sa lutte à distance avec Amazon en lançant des fonctionnalités similaires à celles d’Alexa ; ainsi il est possible de poser des questions complémentaires à l’Assistant sans avoir à prononcer à nouveau le mot-clé « OK Google » – ce qui sous-entend que le microphone reste systématiquement ouvert après chaque requête. L’Assistant est également maintenant capable de traiter plusieurs requêtes dans une même phrase.

Avec la fonction « Pretty please », Google tente encore une fois de montrer que l’IA peut aider à « faire le bien ». En activant ce mode sur Google Home, les parents pourront forcer leurs enfants à dire « s’il te plaît » avant une demande à Assistant, et ils seront récompensés. En attendant les punitions administrées par agent virtuel ?

Plusieurs nouveautés ont aussi été annoncées dans le domaine des « actions », ces applications destinées à Google Assistant. De nouvelles réponses « visuelles » sont disponibles sur Assistant, que les éditeurs pourront personnaliser suivant leur charte graphique. Ces réponses visuelles seront disponibles sur smartphone et sur les nouveaux appareils compatibles Google Assistant disposant d’un écran, les premiers étant lancés en juillet aux Etats-Unis. D’autres appareils intégrant le « Google Assistant SDK » pourront également afficher des réponses visuelles provenant de l’assistant, comme des télévisions connectées, décodeurs TV, cadres photo intelligents…

Exemples de visualisations disponibles dans les « actions »

Google ne néglige pas les enceintes connectées avec de nouvelles fonctionnalités vocales. Ainsi les utilisateurs peuvent maintenant s’authentifier dans une « action » vocale en utilisant leur compte Google. Ils pourront également effectuer des achats dans une action en utilisant uniquement la voix dès la semaine prochaine en France. Enfin, il sera possible de retrouver des contenus numériques ou des abonnements achetés via le « Play Store » dans une action.

Premiers éditeurs supportant les transactions dans leurs actions Google Assistant

Google Assistant x Android

En parallèle, Google cherche à intégrer plus profondément Assistant à Android et a annoncé deux nouvelles fonctions disponibles cet été. D’abord « App Actions », qui permet aux applications installées sur un smartphone d’exposer des liens profonds permettant d’accéder directement à une fonctionnalité ou un contenu. Ces actions seront affichées dès cet été lorsque l’utilisateur fera une recherche sur Android (6.0 ou plus) et ultérieurement sous forme de suggestions dans Google Assistant. Dans  la nouvelle version Android P, qui sera lancée à la fin de l’année, les suggestions apparaîtront aussi lorsque l’utilisateur sélectionnera un texte.

Suggestions d’actions sur Android P

Les actions seront également visibles dans la boutique d’applications Google Play pour les applications non installées et « intentions » supportées, par exemple regarder un film, obtenir les dernières actualités…

Google a également présenté les « Slices »des aperçus d’applications de type « widget » qui apparaîtront dans les résultats de recherche cet été puis dans Assistant. Compatibles avec 95% des appareils sous Android, ces « Slices » permettront aux utilisateurs d’accéder directement à une fonctionnalité d’une application sans avoir à la lancer – par exemple écouter un titre musical, lister les dernières commandes…

Pour la nouvelle version d’Android « P », Google veut devenir un « coach de vie numérique » afin d’aider les utilisateurs à décrocher de leur écran (et des services concurrents). Ainsi la nouvelle version fournira un tableau de bord précis du temps passé pour chaque application et permettra de limiter le temps passé sur une application donnée ou de définir une heure de coucher à laquelle l’écran basculera en mode noir et blanc. En parallèle, YouTube a lancé une fonction permettant de définir une durée maximale de visionnage pour éviter le « binge watching » immodéré.

Une session de Google I/O était dédiée à Android TV, la déclinaison d’Android pour les TV connectées et décodeurs TV. La plateforme compte plus de 3 600 applications et jeux et plus de 100 partenaires, tandis que le nombre d’appareils activés a doublé entre 2017 et 2018.

Liste des partenaires Android TV – les deux premiers opérateurs sont français

Si la plateforme n’a pas connu de nouvelles améliorations depuis l’année dernière, de nombreuses optimisations ont été apportées pour la rendre plus fluide sur les appareils bas de gamme, comme les décodeurs TV d’entrée de gamme de nos opérateurs. Google a aussi confirmé qu’Assistant serait disponible dès cette année en France sur Android TV pour permettre un accès aux « actions » via une télécommande. Le groupe a annoncé cette semaine un nouvel appareil sous Android TV : JBL Link, une barre de son disponible cet automne en France. Comme les premiers appareils Google TV, la JBL Link dispose de ports externes pour brancher d’autres appareils comme une console ou un décodeur TV. Grâce à Google Assistant, l’utilisateur peut ensuite changer de source vidéo, éteindre ou allumer sa télévision uniquement à la voix.

Google continue de capitaliser sur ses incontournables

Google a aussi profité de I/O pour dévoiler des améliorations sur ses produits phares. Le nouveau Google Actualités sur mobile et web fait la part belle à l’Intelligence Artificielle pour déterminer les cinq principaux articles à consulter à tout moment – certains éditeurs vont s’empresser d’embaucher des experts en « AI engine optimization » pour tenter d’apparaître dans cette liste. Grâce à l’IA, Google Actualités proposera aussi un nouveau format de contenu, Newscast, qui rassemblera des informations sur un événement dans une « story » visuelle. La fonctionnalité pompeusement nommée « co-localité temporelle » permettra d’avoir plusieurs points de vue sur un même événement, avec le risque, bien connu des animateurs de débat, que tous les points de vue soient mis sur le même plan, même lorsqu’ils sont minoritaires.

L’application Google Maps devient plus personnalisée et sociale en proposant une sorte de « Google Trends » des lieux populaires à proximité, un service de « matching » pour choisir des lieux similaires à ceux préférés par l’utilisateur (à quand le service de rencontre intégré à Maps ?) et une fonction de « playlist » pour choisir collectivement une liste de lieux à visiter. Google va également permettre de prendre un rendez-vous directement dans un commerce de proximité ou un cabinet de santé – sans passer par Duplex pour l’instant. Enfin, Google Maps s’intègre lui aussi à la caméra au travers d’une fonction permettant de guider l’utilisateur via des incrustations en réalité augmentée et un nouveau mode « VPS » (Visual Positionning System) pour déterminer précisément la position du smartphone. En revanche, Google a été très discret sur la récente hausse des tarifs d’utilisation des APIs Google Maps…

Sur Chrome, le mode « Picture in Picture » (déjà possible sur mobile) va être déployé sur les ordinateurs ; il permettra d’afficher une vidéo dans une fenêtre tout en continuant sa navigation. Google a profité de la conférence pour évoquer les avancées récentes autour du Codec « AV1 », qui est supporté par l’ensemble des GAFA/M/N.

Liste des partenaires de l’AOM qui standardise le codec AV1

Cet algorithme de compression vidéo permet des gains importants par rapport à H264 et VP9 (le format open-source de Google, utilisé principalement sur Android et YouTube), mais moins importants par rapport à HEVC/x265, le codec actuellement utilisé pour la compression des vidéos 4K/UHD. L’avantage principal de AV1 est l’absence de licence propriétaire, qui permet une réduction significative des coûts d’encodage. Si le support dans Chrome est prévu au troisième trimestre 2018, les premiers processeurs intégrant le codec ne devraient pas apparaître avant 2020, et donc les premiers appareils capables de lire des vidéos compressées en AV1 de façon fluide ne seront pas disponibles d’ici trois ans…

L'AR n'est pas en reste

Dernier sujet abordé à la conférence Google I/O : la réalité augmentée. Google Lens, la caméra intelligente disponible sur certains appareils Android, permet à présent de copier et coller directement du texte depuis une photo via la reconnaissance de caractères. La fonction « Style Match » peut trouver un vêtement au style similaire à celui pointé par l’utilisateur. Les résultats des recherches effectuées depuis Lens apparaissent maintenant directement au-dessus des objets filmés. Enfin, Lens sera prochainement disponible sur d’autres appareils que ceux de la gamme Google Pixel.

La librairie de développement d’applications de réalité augmentée AR Core s’enrichit également. Elle est actuellement disponible sur 100 millions d’appareils Android, un chiffre largement inférieur au nombre d’appareils iOS qui ont accès à AR Kit, la librairie d’Apple. AR Core permet à présent de créer des applications sociales où plusieurs utilisateurs peuvent interagir avec un objet en réalité augmentée en même temps ; une fonction disponible sur Android et iOS. AR Core supporte aussi les images augmentées, afin de créer facilement des effets de R.A. sur des images fixes.

La grande absente de ce Google I/O est la réalité virtuelle, qui était présente uniquement via quelques démonstrations dans une « tente » également dédiée à la réalité augmentée et via une application dédiée aux salles de classe. Cette discrétion est surprenante alors que Google a lancé la semaine dernière en partenariat avec Lenovo son premier casque autonome : le Mirage Solo, concurrent de l’Oculus Go de Facebook. Signe que la société songe à se retirer du marché de la VR ? Simple conflit de calendrier ? Il serait étonnant que Google laisse le marché à son concurrent Facebook, et ce alors que des rumeurs prêtent à Apple la volonté de lancer son propre casque AR/VR. Rendez-vous à la fin de l’année, lors des traditionnelles annonces de produits matériels de Google, pour en avoir le cœur net.