Son binaural : comment le produire ?

Par Lidwine Hô, France Télévisions, Direction Innovations et Développements

Après une première introduction aux bases du son binaural, voici la suite de notre dossier consacré à cette technologie de restitution du son en trois dimensions. Dans cette seconde partie, nous présentons ici les différentes méthodes de captation pour fabriquer du son binaural.

Nous avons vu que cette écoute 3D est possible car nos deux oreilles ne perçoivent pas exactement le même son. C’est de cette différence inter-aurale que notre cerveau tire les indices nécessaires à la construction de l’image sonore qui nous donne à entendre la réalité qui nous entoure.

Comment alors, recréer ces indices qui vont permettre à notre cerveau de reconstruire cet espace ?

1Fabriquer du binaural natif

Le binaural natif consiste tout simplement à remettre dans les oreilles de l’utilisateur ce qu’il entend dans la vie réelle. La manière la plus naturelle de fabriquer du son binaural est de reproduire les conditions réelles d'écoute. Pour cela, le moyen le plus évident est de placer deux micros à l’entrée des conduits auditifs d’une personne (réelle ou mannequin artificiel) et d’enregistrer sur deux pistes séparées.

Les avantages de cette technique sont nombreux. Le son reproduit est une restitution presque parfaite de l’environnement sonore, notamment l’image du lieu, la position des sources sonores dans l’espace, la sensation d’externalisation (le fait de ressentir les sons loin de soi) et cela ne nécessite aucune post production.

De plus la mise en place est très simple : il suffit de trouver un élément qui ressemble à une tête avec des pavillons d’oreille réalistes et d’y insérer des micros. L’enregistrement issu de cette captation aura nativement tous les indices nécessaires à la recréation de l’espace par notre cerveau.

Quelques exemples de têtes

1

Didier (Jérône Echenoz)

2

Sandy (Lidwine Hô) Tropisme 2015 / Photo (c) Margot Valeur

4

Headgar Bernard Lagniel (Radio France)

5

KU 100 Neuman

Il existe cependant certains inconvénients au binaural natif.

La scène captée contiendra intrinsèquement tous les éléments qui vont permettre au cerveau de localiser les sources sonores. En revanche, il ne sera plus possible de dissocier ces différentes sources sonores. L’image sonore est pour ainsi dire figée : on ne peut pas modifier des éléments de cette prise de son ou changer l’axe d’écoute. La prise de son originale doit donc être parfaitement maîtrisée et presque déjà diffusable au moment de la captation. Cela conviendra parfaitement lorsque l’on souhaite produire une captation très réaliste, comme pour des reportages dans le vif du sujet, des plans-séquence (car on aura une continuité du mouvement), des scènes en subjectif ou encore des contenus immersifs qui ne nécessitent pas de changer de point d’écoute.

Mais cette technique ne permet pas l’interactivité du mouvement. De plus, dans un contexte télévisuel, les processus de production sont régis par différents facteurs tels que la prise en compte de la captation image en simultané, ce qui implique une discrétion du système de captation. La nécessité de produire des flux audio compatibles avec différents modes de restitution ou de configuration de hauts parleurs est une contrainte de plus en plus présente en raison de la multiplication des types de configurations. Ce mode de captation ne sera donc pas adapté à toutes les situations de tournage en télévision, bien qu’il permette de restituer avec fidélité un espace sonore.

Exemples de captation en binaural natif

Roland-Garros 2015

Diverses méthodes sont possibles pour pallier certains de ces inconvénients. Pour les changements d’axe par exemple, une méthode simple consiste à mettre plusieurs têtes à l’emplacement des différents points de captation et de passer de l’une à l’autre. Cette technique a été mise en place sur Roland-Garros en 2015 lors d’une captation Ultra haute définition à trois caméras. Les micros introduits dans les oreilles étaient des dpa4060 protégés par des bonnettes anti-vent.

8

9

Les signaux stéréo binauraux issus de chacune des trois têtes on été ramenés via les signaux caméra pour être mixés directement au car régie. Une automation de la console de mixage permettait ainsi de mettre à l’antenne le son associé à la caméra qui était également mise à l’antenne.

La transition d’un son à l’autre se faisait en fondu enchainé automatique sur une durée qui a été ajustée de 400 ms à 3 secondes, sans réussir à trouver un temps de montée et de descente des faders qui convienne à toutes les situations. Il est resté nécessaire de reprendre manuellement les temps de fondu enchaîné en fonction du contenu. Néanmoins, l’expérience s’est avérée concluante en terme de réalisme du son et de  positionnement des sources sonore dans l’espace.

Projet de film interactif : "Tantale" de Gilles Porte

Dans ce projet, l’interaction n’est pas liée au mouvement, elle relève d'un choix fait par l’internaute à la place du personnage principal. Le son binaural est utilisé lorsque l'utilisateur se retrouve en situation de devoir faire un choix et qu'il se retrouve dans la tête de ce dernier : le binaural permet alors de créer un effet de contraste pour l'auditeur. Pour cela, tout le film a été entièrement bruité en prise de son classique et en binaural (natif et de synthèse) grâce à deux têtes (Sandy de France Télévisions et La Neumann KU100).

Scène en 360°

Autre dispositif de captation en binaural natif, la scène 360°. Ici, des têtes sont fixées aux caméras, qui se trouvent au centre de l'espace et filment vers l’extérieur.

12

Un dispositif de captation totalement subjective permet de voir et d’entendre comme si on était à la place d'un musicien, un batteur par exemple sur la photo ci-dessous.

14

Captation subjective

2La synthèse binaurale

La synthèse binaurale est, comme son nom l’indique, la reproduction artificielle des caractéristiques d’un son binaural. Pour la produire, il faut connaître les différences sonores inter-aurales gauche-droite, qui sont produites par la forme de notre tête et notre corps. Pour mieux comprendre ce qui se passe à l’entrée de nos pavillons d’oreille et comment les sons sont modifiés, on effectue ce que l'on appelle des mesures HRTF (head-related transfer function, ou fonction de transfert relative à la tête).

Pour s’assurer de ne prendre en compte que les effets de la tête sur une source sonore émise, on place la personne en chambre anéchoïque, c’est-à-dire une pièce sans écho, dans laquelle les sons ne se répercutent sur rien. Des petits micros omnidirectionnels sont placés à l’entrée des conduits auditifs de la personne ou de la tête à mesurer. On émet alors un son sur un haut parleur, appelé "sweep", enregistré par les deux micros pour obtenir un fichier audio stéréo contenant toutes les différences entre l’oreille gauche et l’oreille droite pour un son émis de cet endroit là. Il ne reste plus qu’à réitérer l’opération en déplaçant la source sonore pour toutes les directions que l’on souhaite mesurer. On obtient ainsi des HRTF(s).

15

« La fonction de transfert relative à la tête ou HRTF caractérise par une fonction de transfert mathématique les transformations apportées aux ondes sonores par le corps d'un auditeur, principalement la tête, le pavillon de l'oreille et le conduit auditif, qui permettent à l'être humain de repérer l'origine d'un son, tant en azimut (horizontalement) qu'en site (verticalement). »

La synthèse binaurale consiste, à l'aide des mesures HRTF, à appliquer à chaque source que l’on souhaite spatialiser la différence gauche/droite de temps d’arrivée, d’intensité et de fréquence, ceci afin de reconstituer les indices inter-auraux qui permettent au cerveau de reconstruire l’espace tridimensionnel. On utilise alors des logiciels de spatialisation ou des plugs que l’on peut insérer dans une console et qui appliquent à chaque son la fonction de transfert correspondante, en fonction de la position à laquelle on veut le restituer.

Les avantages de cette méthode sont multiples :

  •  Compatibilité : La synthèse binaurale étant une méthode classique dite de micros d’appoints, où l’on place un micro à proximité de chaque source sonore, elle permet donc de produire des scènes sonores sans changer le processus de captation habituel et de continuer à faire des mixages en stéréo ou en 5.1.
  • Maniabilité : Les sources sonores étant toutes enregistrées indépendamment, le processus de binauralisation est appliqué a posteriori et l’axe d’écoute est modifiable après l’enregistrement. Il permet même de rendre le contenu interactif en binauralisant le son à la demande en fonction des préférences de l’utilisateur.
  • Personnalisation : La synthèse binaurale permet également de personnaliser l’écoute. L’écoute binaurale étant liée à des paramètres morphologiques (distance entre les deux oreilles, forme du pavillon), ces derniers peuvent être affinés selon la morphologie de chacun afin de restituer une écoute fidèle en trois dimensions. La fonction de transfert devra donc être choisie en fonction du profil de l’auditeur.

3Le mixage binaural sur haut-parleurs virtuels

Le mixage binaural sur haut-parleurs virtuels consiste à binauraliser un contenu multicanal destiné à un set de haut-parleurs pour permettre une écoute au casque fidèle à la réalité. On applique la différence inter-aurale correspondant à la position du haut-parleur à toutes les pistes audio de manière à donner l’impression que chacune provient effectivement de haut-parleurs virtuels.

Ce procédé peut être très pertinent car il permet de faire entendre un mixage à l’auditeur sur un jeu de haut-parleurs parfaitement bien placés dans une acoustique choisie, ce qui est le cas dans la plupart des mixages musicaux. C’est une méthode qui n’a pas la prétention de reconstituer le réalisme d’une scène sonore réelle, mais plutôt de mettre l’auditeur dans les conditions parfaites d’une écoute multicanale, bien placé au centre du système.

Autre avantage de cette pratique, la possibilité de proposer le contenu en un format unique, tout en permettant à l’auditeur de choisir son écoute sur enceinte ou au casque. De plus, le flux n’étant pas binauralisé au départ, la fonction de transfert qui sera appliquée pourra être choisie en prenant en compte la morphologie de l’auditeur. C’est notamment le format de diffusion principal du site NouvOson de Radio France.

Enfin, une autre méthode de captation permettant d’obtenir un rendu en synthèse binaurale est la prise de son Ambisonic. Cette méthode consiste en un micro muni de plusieurs capsules qui enregistrent l’espace sonore tridimensionnel (plus ou moins précisément selon le nombre de capsules) et permet d’en faire une restitution soit sur haut-parleurs, soit au casque en binaural.

24

Tetramic

25

Eigenmike

Du binaural natif à la synthèse binaurale, en passant par le mixage sur haut-parleurs virtuels, les méthodes de captation du son pour restituer un son en écoute 3D sont donc variées et adaptables à tous les contenus : musique, jeux en réalité virtuelle, compétitions sportives... Les possibilités sont infinies et le son binaural est un pas de plus vers une expérience de plus en plus réaliste, pour proposer de nouveaux modes de narration et vous proposer des contenus toujours plus immersifs !