Dialoguiste pour robot : l’humain derrière la machine

Par Clotilde Chevet, doctorante du GRIPIC CELSA Paris-Sorbonne. Billet invité

Egoteller, psydesigner, dialoguiste, UXcopywriter, etc. les mots fleurissent pour désigner ceux dont le métier est de faire parler nos objets connectés. Ces « professionnels de la conversation », tantôt poètes, écrivains ou encore scénaristes pour séries TV, sont recrutés par les Gafa et startups pour élaborer la personnalité linguistique des assistants personnels.

La naissance d’un métier

Depuis l’arrivée de Siri sur le marché en 2011, l’essor des assistants personnels a offert une place de choix aux littéraires dans les grandes entreprises tech. Des « plumes » prêtent ainsi leurs mots à Siri, Cortana, Alexa, à l’Assistant Google et déterminent la nature de la relation avec l’usager.

Les sciences de l’information et de la communication cherchent à lever un coin du rideau sur ceux qui œuvrent en coulisses à l’élaboration de l’interaction avec les assistants personnels. Tout comme le Cyrano d’Edmond Rostand soufflait à Christian des mots doux pour séduire Roxane, les dialoguistes cherchent les bons mots pour façonner le lien entre l’usager et l’assistant. Le choix des mots a ici d’autant plus d’importance qu’en l’absence d’anthropomorphisme physique de la machine, le lien qui s’établit entre l’assistant et l’usager passe par le langage, écrit comme oral. La question est alors de savoir à quel point ces objets destinés à interagir avec nous doivent « sonner » humain. Quelle place donner à l’humanité, à l’humour, à l’hésitation dans le discours d’une machine ? Comment construire la trame d’interaction qui permettra à l’usager d’échanger avec l’assistant ?

Un travail d’équipe

Au quotidien, les dialoguistes travaillent main dans la main avec les développeurs afin d’élaborer la trame d’interaction. En effet, chaque brique conversationnelle correspond à une étape technique (validation d’une action, passage au nœud d’interaction suivant, etc.), à commencer par le fameux « Invocation name » (« Ok Google » ou « Dis Siri » chez Apple), nécessaire au déclenchement de l’assistant. La conversation est ainsi conçue sur la base d’un arbre de décision structurant les échanges à venir.

Mais le travail d’élaboration d’une personnalité linguistique est lui-même un travail d’équipe. Chez Microsoft, ils ne sont pas moins de vingt-trois à travailler sur l’identité de Cortana. C’est une étape essentielle car, comme l’explique Marjolaine Grondin, CEO de Jam, « la proximité est finalement très peu liée à la supervision humaine mais bien à la personnalité créée en amont ». Ecrivains, scénaristes et traducteurs travaillent ensemble à l’élaboration d’une persona, en accord avec l’univers de référence de l’usager ciblé. Au-delà de la langue, il s’agit en effet d’adapter l’humour et les références culturelles de l’assistant à chaque pays.

Les dialoguistes travaillent également sur la trame qui structure la conversation afin de poser un cadre propice à l’attachement, voire à la confidence. Il est intéressant de constater que ces trames suivent parfois des modèles spécifiques, comme celui de la psychanalyse, avec des renvois de questions comme ressort conversationnel principal, ou encore celui de la séduction. Raphaël Kammoun, anciennement plume pour Jam, dit d’ailleurs avoir testé des punchlines et phrases d’accroche sur Tinder, l’application de rencontres, afin d’élaborer la trame conversationnelle de l’assistant Jam.

Selon son expérience, « la situation d’énonciation, le « qui parle à qui » en gros, est très proche [de Tinder] : les premiers éléments de conversation n’ont pas seulement une contrainte fonctionnelle, ils ont pour objectif d’établir un rapport, de convaincre et séduire un inconnu dès les premiers mots ».

Persona et trames sont ainsi conçues par toute une équipe de littéraires, psychologues, traducteurs et développeurs, qui travaillent ensemble afin de proposer une situation de communication optimale.

A cette première équipe s’ajoute parfois une armée de « backers » qui reprennent la main en cas de défaillance de l’intelligence artificielle. Ce fut longtemps le cas pour l’assistant  M de Facebook, avec ses fameux M trainers, ainsi que pour Jam, « assistant mi-robot mi-humain », avant qu’ils passent tous deux en format entièrement automatisé sur Messenger. Comme l’expliquait Raphaël Kammoun, son rôle était aussi de définir des maximes de comportement, des règles communes, afin d’harmoniser la parole de Jam, que la réponse provienne de l’intelligence artificielle ou d’un des soixante « backers ».

Enfin, il est à noter que l’humain intervient aussi en aval de l’interaction, lorsque l’échange est traité a posteriori par les « dresseurs d’AI », personnes dont le rôle, plus ou moins officiel, est d'améliorer le fonctionnement des assistants en écoutant, retranscrivant et analysant une à une les paroles captées par la machine.

Ces différents corps de métiers travaillent ainsi de concert pour concevoir un ensemble linguistique et sonore cohérent avec la culture de chacun des pays de destination.

Du langage naturel au langage humain

Si le but des assistants personnels est de permettre une interaction homme-machine en langage naturel, la mission des dialoguistes est bien de rendre ce langage humain. La récente démonstration de Google lors de son congrès annuel le 8 mai 2018 a justement soulevé cette question en donnant à entendre un échange téléphonique entre l’Assistant Google et une employée d’un salon de coiffure. Durant cet échange, la femme au bout du fil a notamment demandé à l’assistant de patienter quelques secondes, ce à quoi l’assistant a répondu par un simple « Mmh mmh », déclenchant les rires du public assistant à la présentation. Cette onomatopée à elle seule révèle un pan entier de l’humanisation des machines. Plus que de parler en langage naturel, l’enjeu est de paraître humain. Pour le linguiste aux commandes, il s’agit alors d’utiliser des marqueurs d’oralité, tels que cette onomatopée, mais également d’introduire dans le discours de l’assistant de l’hésitation, des moments de réflexion, voire des respirations.

Ces marqueurs d’oralité souvent présents à l’écrit se concrétisent à l’oral lorsqu’une voix de synthèse, conçue par des voice designers, se greffe sur la trame pré-écrite. Elle vient alors donner corps, genre, personnalité et âge à l’assistant. Certains chatbots passent ainsi d’une version purement écrite à une version vocale, comme par exemple l’application Replika, dont les concepteurs viennent de lancer une version bêta permettant aux utilisateurs de passer des coups de téléphone à leur Replika personnalisé. On assiste donc à une pré-écriture de l’oral et surtout du non-verbal, essentiel pour humaniser l’assistant et simuler un échange spontané.

Si la voix donne corps à l’assistant, c’est également par les mots que les dialoguistes développent la corporalité de leur produit. Il relève en effet de leur choix de développer ou non un imaginaire corporel humain autour de leur assistant. On observe deux choix possibles face à ce sujet : celui de doter l’assistant d’un corps virtuel aux caractéristiques humaines ou bien de mettre en avant un équivalent mécanique. Ce choix aura des conséquences non seulement sur l’identité de l’assistant mais également sur la nature du lien qui unit l’usager à la machine.

Par exemple, les concepteurs de l’Assistant Google ont opté pour l’évocation majoritaire d’un corps machinique évoluant dans un univers virtuel. Les déclarations d’amour touchent ainsi l’assistant « au plus profond de son code binaire », il a « l’algorithme dans la peau » et aime se balader le long des plages de Google Earth… Il ne peut donner de baiser, de peur de court-circuiter.

A l’inverse, l’ancien assistant de Samsung, S Voice, usait plus souvent de la métaphore humaine et allait jusqu’à proposer à l’utilisateur d’imaginer un contact physiquement impossible en disant « Ferme les yeux. Voilà, là, je te serre fort dans mes bras » lorsqu’on lui demandait un câlin. Il proposait également « d’embrasser (l‘utilisateur) par la pensée » lorsqu’on lui demandait un baiser.

Le positionnement des entreprises quant à la relation homme-machine se reflète ainsi dans les répliques prévues par les dialoguistes pour répondre aux requêtes d’ordre sentimental ou corporel des utilisateurs. L’enjeu majeur est ici de déterminer quelle vie sociale donner à la machine selon les mots que l’on choisit.

Conclusion

Comme nous avons pu le constater dans ces quelques lignes, les coulisses de l’intelligence artificielle comportent une grande part de travail bien humain. Le métier de dialoguiste pose la question de la limite à ne pas franchir dans la simulation de l’humanité. Nous passons de l’ère où nous cherchions à rendre plus humaine la machine à celle où nous nous inquiétons de ne plus réussir à la distinguer de l’homme, d’où le retour de la fameuse loi du drapeau rouge de Turing selon laquelle :

« tout système autonome doit être conçu de façon à ce qu’il soit improbable qu’il puisse être confondu avec autre chose qu’un système autonome et doit s’identifier comme tel au début de toute interaction avec un autre agent ».

Le débat sur l’humanisation de la machine ne saurait donc se passer d’une réflexion sur le travail de l’humain derrière la machine, celui qui conçoit l’interaction comme celui qui traite nos échanges a posteriori et entre les mains duquel reposent nos données personnelles.