Son binaural : restituer une écoute naturelle 3D au casque

Par Lidwine Hô, France Télévisions, Direction Innovations et Développments

« Binaural » signifie littéralement « ayant trait aux deux oreilles ». L’écoute binaurale est une technique très simple pour l’auditeur : elle nécessite uniquement que l’utilisateur se munisse d’un casque et lui restitue une écoute 3D très naturelle. Avant de détailler sur quels principes cette technologie fonctionne et quelles applications nous pouvons en faire dans un contexte de création audiovisuelle, nous vous proposons d'écouter quelques sons pour comprendre de quoi il s'agit.

Ecoute ici : http://idfrancetv.fr/wp-content/uploads/2016/03/BinauralLiHo.wav

Pour ceux qui sont pressés, l'essentiel est résumé dans cette Story réalisée au Laboratoire Innovations et Développements de France Télévisions.  

Le son binaural repose sur les principes de notre écoute naturelle quotidienne

Nous voyons ce qui est devant nous, nous percevons le reste de notre environnement grâce à ce que nous entendons tout autour de nous. Le son qui se propage dans l’air se diffuse dans un espace tridimensionnel quelle que soit sa source et le nombre de points de diffusion. Le son, contrairement à l’image qui peut se reproduire sur une surface, se reproduit dans l’espace sans contrainte de support tant qu’il y a de l’air ou de la matière.

Lorsque nous nous trouvons dans une pièce, un lieu, qu’il soit ouvert ou clos, notre regard nous renseigne sur la place que nous occupons par rapport aux autres objets, ou au sein de cet espace. Nous ne voyons que ce qui se trouve devant nous. Si nous avons les yeux bandés, si nous nous trouvons dans le noir, ou tout simplement si nous tournons le dos à une personne/objet, nous sommes capables d'interpréter de ce qui nous entoure grâce aux indices sonores qui sont analysés par notre cerveau de manière plus ou moins consciente, et nous renseignent sur tout ce que l’on ne voit pas ou précisent ce que l’on voit.

Dans la vie réelle, nous entendons en 3 dimensions, nous percevons les sons venant de devant, derrière, droite ou gauche mais aussi de dessus ou même d’en dessous. Pourtant nous n’avons que 2 oreilles, et ces 2 oreilles sont les seules entrées d’information sonores reçues par notre cerveau (en occultant tout de même la conduction osseuse). Ceci signifie donc que 2 sons seulement contiennent suffisamment d’informations pour permettre à notre cerveau de séparer l’origine de chaque source sonore et les « répartir »  autour de notre tête pour nous restituer l’écoute 3D qui nous semble si naturelle.

Lors d’une écoute naturelle, nos deux oreilles ne reçoivent pas exactement la même informationEn résumé, notre cerveau a besoin de 3 indices qui sont des différences entre l’oreille gauche et l’oreille droite.

  • ITD = Différence de temps d’arrivée d’un son d’une oreille sur l’autre : nos deux oreilles ne se trouvent pas exactement au même endroit. Il y a un écart de placement qui induit une différence de temps d’arrivée d’un son d’une oreille sur l’autre en fonction de sa position relative à notre tête. Certaines fréquences qui sont perçues parfaitement par une oreille sont modifiées quand elles arrivent à l’oreille qui est opposée à la source sonore car elles sont atténuées par l’effet de masquage de la tête. Il y a aussi un phénomène de filtrage de fréquences dû à l’impact du pavillon de nos oreilles.
Temps d’arrivée = t2-t1 Perte d’intensité sonore entre l’oreille droite et l’oreille gauche.

Temps d’arrivée = t2-t1
Perte d’intensité sonore entre l’oreille droite et l’oreille gauche.

  • ILD = différence d’intensité sonore d’un son d’une oreille sur l’autre.
  • Indice fréquentiel : aussi appelé indice monaural, ces différences résultent de l’impact de la forme du pavillon de l’oreille sur la nature des sons lorsqu’ils parviennent à notre tympan.
Différentes formes de pavillons

Différentes formes de pavillons

L’outil de spatialisation le plus performant reste donc encore notre cerveau. La matière qu’il décode se compose uniquement de 2 signaux acoustiques contenant des différences gauche-droite que l’on appelle différences "interaurales". Le principe de l’écoute binaurale est de restituer au casque ces différences interaurales.

Contrairement à la quasi totalité des autres systèmes de restitution, l'écoute binaurale permet également une écoute de proximité ou d’extrême proximité : on peut chuchoter à l’oreille des auditeurs de manière extrêmement troublante par exemple. À contrario, elle a aussi la capacité à donner une sensation d’externalisation des sources sonores de manière à ce que les sons perçus peuvent donner l’impression de se situer bien au-delà des écouteurs du casque, et au-delà des murs de la pièce dans laquelle l’auditeur se trouve. Tout comme l’écoute naturelle et qui parait innée et instinctive, elle renseigne l’auditeur de façon très réaliste sur  l’acoustique du lieu et donc sur les caractéristiques architecturales y compris la texture des matériaux de construction.

Le cerveau est un décodeur de signaux, capable de spatialiser les sons dans l’espace à partir de deux fichiers entendus simultanément. Il est donc primordial de respecter une qualité minimum au fichier audio initial, tant sur le plan de la qualité de la prise de son (microphones, enregistreurs, formats d’enregistrement) que sur celui de la transmission ou de la réception (codecs de compression, ampli, casques) et également sur les conditions d’écoute.

L’écoute binaurale en contexte multi-sensoriel 

La vision

La capacité que nous avons à savoir « décoder l’espace » est une capacité acquise au cours de notre expérience d’humain par une approche multi-sensorielle. Notre « schéma » personnel de spatialisation, s’est construit par une mise en adéquation des informations reçues par nos yeux et celles reçues par nos oreilles. Une fois ce schéma construit dans notre cerveau, nous percevons naturellement les sons autour de nous, et notre cerveau n’a aucun mal à imaginer que la source sonore soit réellement présente dès lors qu’elle n’est pas dans notre champ de vision, il sera en revanche difficile de faire croire à une source sonore non présente visuellement ou peu crédible visuellement car émise par un écran, de mauvaise qualité ou non synchronisée.

Ce phénomène multi-sensoriel est à prendre en compte dans le cas de la production audiovisuelle car il peut dans certaines conditions être un atout, tout autant qu’il peut devenir un élément perturbateur dès lors que l’adéquation visuel-auditif attendue par le téléspectateur ne serait pas fidèle à ce qu’il pourrait attendre de la notion qu’il se fait de la réalité.

Dans un film, un documentaire, un jeu vidéo, on utilise différentes clés pour permettre au téléspectateur/utilisateur, de comprendre l’espace dans lequel il se trouve : plan d’ensemble, changement d’axes, indices visuels de décor, indices culturels. On utilise les indices sonores tout comme on utilise les indices visuels : bruits d’oiseaux dans une forêt, bruit des cigales quand il fait chaud, bruits de circulation dans une grande ville. D’autres indices sonores artificiels sont créés pour nous faire ressentir l’espace : la réverbération, certaines fréquences nous renseignent sur la nature du lieu.

Grâce à la diffusion en multicanal, on peut même entendre les sons tout autour de soi pour les installations home cinéma, et même au-dessus de soi dans des salles de cinéma équipées en multi-diffusion. En revanche ces systèmes, aussi coûteux et perfectionnés soient-ils, ne nous permettent pas encore de ressentir l’espace naturel autour de nous.

Le milieu réel d’écoute pourra avoir un impact sur le ressenti réaliste ou pas de la scène. Il sera introduit par une inadéquation de ce que l’auditeur entend et le milieu dans lequel il sait se trouver et qu’il ne reconnaît pas résonner acoustiquement.

son-binaural2

Exemple de contenus audiovisuels en binaural

Binaural circus : https://vimeo.com/91459633

Le mouvement

Un autre phénomène multi sensoriel, celui lié au mouvement pour autant que l’on puisse considérer que se mouvoir et être conscient ou à l’origine de son mouvement soit un sens. Nous dirons que c’est plutôt un agrégat de sens qui forment une cohérence. La perception que nous avons d’un espace qui bouge ou plutôt de nous bougeant dans un espace est la plupart du temps liée au fait que nous sommes à l’initiative de ce mouvement. Les changements de point de vue et de point d’écoute restent cohérents car ils sont anticipés, et en adéquation avec « l’attendu ».

Le contenu audiovisuel devra donc prendre en compte cette attente ou habitude du téléspectateur d’anticiper consciemment ou pas un mouvement avant qu’il ne soit perçu. Cette notion sera abordée dans les contenus interactifs, dans lesquels l’internaute-téléspectateur sera acteur de sa navigation et parfois maître de ses « mouvements » ou de sa position. Il pourra également être question d’utilisation de head-tracker (suivi des mouvements de la tête) en rendu binaural, de manière à restituer une scène stable et fixe même si la personne au casque effectue des mouvements de tête.

Comme tout nouveau média, ce nouveau paradigme a aussi besoin de codes connus et donc d’un certain apprentissage des auteurs mais aussi des auditeurs pour être compris et intégré par les personnes auxquelles il s’adresse. Une grammaire de l’écriture binaurale sera mise en place petit à petit avec ses courants et ses écoles, ses adeptes et ses détracteurs.

Pour quels contenus ?

Il faudra différencier 2 types de contenus : ceux qui sont interactifs et qui permettent à l’auditeur/utilisateur de contrôler son mouvement et qui donc tireront profit avantageusement de la restitution binaurale, et les autres.

Le premier cas c’est celui des contenus en réalité virtuelle, dont l'interactivité n’en est qu’à ses débuts mais dont on attend les prometteurs développements futurs. Il en existe de plus en plus, souvent basés sur le principe du jeu vidéo, dans lequel l’utilisateur peut se mouvoir à sa guise et changer son point de vue et d’écoute. La différence réside dans la proposition éditoriale qui souvent s'éloigne du jeu pour se focaliser sur la narration, le ressenti. Cette frontière est cependant de plus en plus poreuse, le jeu vidéo tendant vers le réel /réalisme alors que la télévision tend à se virtualiser et interagir avec ses téléspectateurs.

Le binaural a beaucoup à apporter dans à ces propositions. De par sa faculté à toucher l’auditeur de manière assez peu consciente, il permet ainsi de provoquer des émotions et de transporter l’utilisateur assez efficacement.

La deuxième forme d’interactivité qui est le plus souvent utilisée sur des contenus musicaux ou théâtraux. Ce sont les contenus qui utilisent  un head-tracker sur des scènes dans lesquelles l’interaction se joue au niveau de la position de l’auditeur en tant que spectateur d’une scène dans laquelle il ne peut pas interagir mais pour laquelle il peut choisir son axe d’écoute. Contrairement à la VR, cela permet au téléspectateur de se trouver « auditivement » au centre d’une salle d ‘écoute 3D (comme si des hauts parleurs étaient disposés tout autour de lui).  L’utilisateur au casque, peut alors se tourner dans différentes directions et avoir le sentiment que la scène reste stable, cette technique peut aussi être utilisée pour restituer des films mixés pour des configurations de haut parleurs en multicanal pour une restitution au casque comme en salle.

L'écoute binaurale est un élément essentiel de la narration immersive. Le savoir faire technique et technologique est certes un enjeu important mais plus encore, l'innovation narrative, avec ou sans image associée, est essentielle. Créateurs, à bons entendeurs...

A lire aussi

  • rick

    Le filtrage fréquentiel fait aussi intervenir la tête (e.g. comme décrit par la HRTF), et dans une moindre mesure, le reste du corps. Ce filtrage représente-t-il un indice négligeable pour qu'il ne soit pas évoqué dans votre article?

    Cordialement