UHD Audios

Revenir vers : 1.10 Le HDCP

11.LES FORMATS AUDIOS IMMERSIFS

Rappel : Les standards audios non immersifs

Voici les principaux formats de restitutions audio ( 2D ou non immersifs ) présents dans le monde du Home-Cinéma :

Je cites ci-dessous un article de Jean-Pierre Lafont qui explique l'origine du format de son 5.1 :

Un peu d’histoire

Le son multicanal pour le cinéma ne date pas d’hier :
- Déjà en 1939, Walt Disney présentait Fantasia, un dessin animé en couleurs enregistré en 8 pistes et diffusé en 3 pistes audio distribuées sur une centaine d’enceintes.
- En 1952, on pouvait assister à New-York à une démonstration du son 6 pistes lors de la présentation du film "This is Cinerama".
- En 1954, la 20th Century Fox sortait "The robe" en Cinemascope, format 2.55:1, avec 4 pistes magnétiques (3 canaux en façade + 1 surround), aussitôt suivie par Todd-AO en 1955 avec "Oklahoma" en 70mm et 6 pistes magnétiques (5 canaux en façade + 1 surround).

Rapidement, d’autres films 6 pistes 70mm suivirent, tous offrant une plage dynamique et des performances supérieures à la traditionnelle piste optique. Il fallut attendre 1976 pour assister à la naissance du Dolby Stereo multicanal sur 6 pistes magnétiques en 70mm avec "Logan’s run" (L’âge de Cristal). Les performances en termes de dynamique et de bande passante étaient sans précédent. Le début des années 90 fut marqué par l’apparition des premiers formats numériques. En 1992 sortait le premier film en Dolby Digital 5.1: "Le retour de Batman".

Que signifie 5.1 ?

L’expression 5.1 est d’origine anglo-saxonne :
En anglais on prononce "five point one". N’avez-vous pas remarqué que le mot "point" se dit "dot" en anglais ? Le "point" anglais désigne une décimale. La traduction française de "five point one" est "cinq virgule un".
Pourquoi cette virgule ? Parce que le chiffre décimal ne désigne pas une enceinte, ni même un canal mais une fraction de la bande passante des autres enceintes.
La réponse en fréquences du canal LFE s’étend depuis 20Hz jusqu’à 120Hz, soit une centaine de Hertz tout au plus, alors que les autres canaux contiennent une bande beaucoup plus étendue, allant jusqu’à 20.000Hz. Le rapport de largeur de bande entre le canal LFE et les canaux satellites est 100/20.000 = 0,005. C’est sur cette base qu’est né ce format qui devrait s’appeler 5,005 et non 5.1

Le "point one" a été proposé pour simplifier la prononciation et faciliter l’intégration marketing. Par conséquent, parler de 5.2 signifierait un seul canal LFE dont la bande passante serait deux fois plus large. Tout ce qui précède s'applique bien sûr au 7.1, 9.1, 7.1.4, etc...

Introduction aux formats audio 3D ou immersif :

Quelque définitions s'imposent, et cela tombe bien car SMPTE a publié ( dans une présentation PDF datée de novembre 2014 ) un lexique et la sémantique adaptée pour définir un format audio immersif :

  • Son : une perturbation de pression dans l'air qui peut être perçu par l'ouïe contrairement au terme Audio qui définit une représentation électrique d'un son ( et donc qui est inaudible ).
  • Champ sonore : espace acoustique créé par reproduire simultanément une ou plusieurs sources audio en deux dimensions dans le plan horizontal.
  • Champ sonore immersif : espace acoustique où le son peut être reproduit à partir des trois dimensions.
  • Son immersif : son qui est expérimenté dans un champ sonore immersif.
  • Système de son immersif : système sonore qui est capable de produire du son immersif.

Il existe deux approches d'encodage audio pour les sons immersifs, l'une est basée sur les canaux, l'autre est basée sur les objets :

  • Canal ( sous entendu : audio ) : collecte d'échantillons audio distinct séquencés qui est destiné à être livré à un seul haut-parleur ou un tableau de haut-parleurs. Voici l'exemple d'un format audio basé sur 5 canaux qui sont restitués à travers 14 enceintes ( en tenant compte du caisson de basse )
  • Objet ( sous entendu : audio ) : Audio ( de n'importe quelle durée ) associé à des métadonnées qui décrivent la façon dont il doit être reproduit dans un champ acoustique. Ces métadonnées décrivent la position, la propagation, les caractéristiques de mouvement et d'autres informations de rendu. Les objets peuvent se déplacer dans le champ sonore, être reproduits dans une position unique, ou par un haut-parleur spécifique. Un objet peut être définit à se comporter un peu comme un canal. Voici l'approche utilisé pour encoder un objet audio :



Quel est l'intérêt d'une approche basée sur les canaux audio ?

  • Flux de travail, outils et techniques déjà établies.
  • Facile à restituer et à contrôler.
  • Assure un contrôle artistique direct de chaque haut-parleurs.
  • Stockage efficace (de nombreux événements dans un petit nombre de canaux).

Quel est l'intérêt d'une approche basée sur les objets audio ?

  • Apporte de la valeur à l'expérience de cinéma, car cela change la façon de raconter des histoires.
  • Libère la création audio du cinéma en mettant l'accent sur l'intention artistique.
  • Simplifie la chaîne de production/livraison et la lecture, par un package unique.
  • Flexibilité de restitution, dans tout environnement quel que soit les configurations de haut-parleur.

Il existe une troisième approche dite hybride qui mélange le meilleur des deux mondes, c'est à dire l'approche basé sur les canaux audio et l'approche basée sur les objets audio. Il existe enfin une grosse différence entre les deux approches notamment au niveau de l'amplificateur censé restituer le format audio :



Dans une approche basé sur les canaux, le critère prédominant à une juste restitution est le nombre et le type de haut parleurs, alors que dans une approche basé sur les objets audio, le critère principal est la position géographique exacte dans l'espace de restitution.

L'autre contrainte ( ou liberté créative, selon le point de vue ) du format basé sur les objets audio ( qui est donc basé sur la position d'objets dans un espace prédéfinis ), est de situer une position de référence égocentrée ou allo-centrée :

L'ingénieur du son doit définir des coordonnées pour chaque objet audio qu'il doit encoder, ce qui suppose un point de référence qui est soit égocentrée ( on replace l'objet audio par rapport à la position d'un être humain situé dans la scène ) soit allo-centrée ( on replace l'objet audio par rapport à la position d'un autre objet audio de la scène ). Bien évidemment la même question se pose au niveau de la restitution à domicile du fait de la configuration de haut-parleurs renseignés, de leur position, de la position d'écoute qui est forcément différente de la position d'origine définie à l'encodage, etc .. . Autrement dit, un objet audio placé à 2m de la position d'origine ( définie à l'encodage ) avec un angle de 56° à gauche ne sera pas forcément restitué comme l'ingénieur du son l'a souhaité du fait de votre position d'écoute dans l'espace acoustique de retranscription ...

Vers un duel de format audio immersif ?

Alors que les négociations progressent pour tous les différents standards liés à l'image, 2 des acteurs impliqués dans l'établissement des nouveaux formats audio ont d'abord privilégier une approche plus radicale et moins ouverte. Pour comprendre la situation, revenons en Février 2013, lorsque NATO et l'Union Internationale des Cinémas (UNIC) ont publiés les exigences des exposants de cinéma pour les technologies sonores immersives : leur but est de s'assurer que quel que soit le système de restitution audio adopté par les exploitants de salles de cinéma, ils pourront être en mesure de lire la bande son immersive quand un studio la fournit. Autrement dit, la bande son des films numériques livrés ( sur support DCP ) par les studios chez les exploitants de salles de cinéma doit avoir été mixé et être encodé dans un format unique ( et si possible ouvert ) indépendant du format de restitution sonore ( Dolby Atmos, DTS-UHD, Auro 3D ... ).

En mars 2013, le groupe de travail TC-25CSS ( CSS pour Cinema Sound System ) est crée au sein du SMPTE ( organisme de standardisation ) avec comme objectif de développer un format unique, interopérable de fichier de distribution pour son immersif, exploitant les objets audio, format dédié à l'industrie du cinéma numérique. Les avantages financiers et opérationnels sont immédiatement évidents : les mêmes médias Digital Cinema Package ( DCP ) portant une bande-son à base d'objets audio pourraient être joué dans n'importe quel cinéma n'importe où dans le monde. Le groupe de travail TC-25CSS conduit donc le processus de normalisation afin d'aboutir à une norme en 2014.

Deux organisations contribuent d'entrée au choix de normalisation du format audio à base d'objets que conduit le SMPTE :

  • Dolby Laboratories, dont la proposition est basée sur Atmos,
  • Les partisans du MDA Cinéma groupe, qui comprend DTS, Doremi laboratoires, laboratoires ultra-stéréo, QSC, Barco et Auro Technologies. La proposition du Groupe MDA est basée sur Multi-Dimensional Audio, un format audio PCM non compressé qui dérive de recherche initié au SRS Labs et raffiné par DTS.

En avril 2013, DTS Inc. et Barco annoncent avoir développé conjointement le premier format de mixage audio exploitant l'approche basé sur des objets audio. Le Multi-Dimensional Audio ( MDA ) semble répondre aux exigences du NATO et de l'UNIC puisque conçu pour figer une structure et des pratiques communes à tous les prochain formats de restitution audio numérique à venir. La volonté de DTS Inc. et de Barco est clairement d'imposer le MDA ( destiné initialement à usage domestique ) comme un standard pour l'industrie du cinéma numérique ... d'autant plus que Dolby, concurrent de DTS Inc. est très bien positionné auprès de l'organisme international SMPTE. A noter que en janvier 2014, DTS a annoncé que le format de mixage MDA serait libre de droits.

Parmi les autres propositions, on retrouve celle de NHK ( diffuseur principal au Japon ), qui a mis au point un système 22.2 canaux appelé Super Hi-Vision Sound, composé de neuf haut-parleurs de plafond ( dont une voie centrale au plafond ), 10 haut-parleurs surround et trois haut-parleurs au pied de l'écran pour reproduire les traces, bruits de voiture et les chutes d'objets.

Voici un tableau récapitulatif des différents formats audio immersifs existants ( monde du cinéma numérique ) :


Même si les formats audio home-cinéma sont calqués sur ceux existants dans l'industrie du cinéma numérique, pour une fois, le consommateur final ne devrait pas faire partit des dommages collatéraux puisque le DTS-UHD ( appellation non arrêtée par DTS ) et le Dolby Atmos devraient équiper nos récepteurs home-cinéma. Il a de fortes chances que le format unique choisit par le SMPTE soit aussi celui dans lequel sera mixé nos pistes sons sur le futur bluray UHD.

Principe de l'approche basé sur les objets audio - Multi-Dimensional Audio ( MDA ) - PCM+ :

Dans le monde réel, nous écoutons des sons en provenance de de toutes directions et d'un nombre infini de points dans l'espace, les objets produisent leurs propres sons et nous les entendons. Pour entendre ces sons au cinéma, à la maison, ou sur une tablette, nous avons besoin de les capter, de les encoder, et les reproduire en utilisant des haut-parleurs, et malheureusement ce processus n'est pas parfait et est soumise aux limites des techniques de mixage et de traitements sonores. Ce que le MDA cherche à faire est de fournir des outils qui permettent à un ingénieur du son d'émuler la façon dont nous entendons les sons en réalité.

La principale percée présenté par le format MDA est une re-conceptualisation de l'audio en objets sonores situées dans un espace à trois dimensions, plutôt que des sons ancrés à une configuration spécifique de canal ou de haut-parleur, comme c'est le cas dans les formats stéréo et surround traditionnels. En d'autres termes, quand un ingénieur du son doit mixer les éléments d'une bande sonore de film ou de musique, au lieu de choisir quelles enceintes vont reproduire tel ou tel instrument ou effet sonore, l'ingénieur du son doit se préoccuper de placer un objet ( instrument, effet sonore ) ou un groupe d'objets dans un espace tridimensionnel. Dans un système MDA, chaque objet (ou groupe d'objets) a sa propre identité, leur permettant d'être indépendamment manipulés dans le processus de mixage, quel que soit le nombre de canaux ou de haut-parleurs associés avec le format de lecture. Au final, l'ingénieur du son gère une base de données définissant une expérience audio plus naturelle.

La structure traditionnelle en PCM d'une bande son étant toujours exploitée en captation, mixage et restitution, l'ingénieur du son ajoute des métadonnées qui contiennent la localisation de tous les objets audios mixés dans l'espace à trois dimension. L'association du format sonore PCM avec le format de mixage MDA donne un nouveau format sonore appelé PCM+.

A la restitution, le décodeur de la bande son va lire les informations du PCM+ et placer les différents objets audio encodés dans l'emplacement approprié en fonction des autres objets audio ainsi qu'en fonction de la position d'écoute. En conséquence, le nombre de haut-parleurs dont vous disposez vont travailler de la même manière que les pixels sur un écran vidéo : plus vous possédez d'enceintes et plus l'écoute sera précisément détaillée. Le plus important étant que quel que soit le nombre de haut-parleurs, vous ferez l'expérience d'une représentation visée initialement par l'ingénieur du son. Le niveau d'immersion fournie étant limité ou complété par le nombre d'enceintes.

Un autre avantage du système MDA est que l'auditeur final peut également repositionner ou accentuer un objet ou un groupe d'objets désigné comme débloqué dans une bande-son de façon indépendante. Autrement dit, au lieu de modifier le niveau sonore de chaque enceinte ou le niveau sonore global de toutes les enceintes, l'utilisateur va pouvoir changer soit le niveau sonore soit le positionnement de chaque objet audio indépendamment du volume sonore global.

Parmi les scénarios possibles, imaginons que vous regardiez un match de football via satellite ou tnt. L'ingénieur du son va d'abord déclarer des groupes d'objets isolés comme les commentateurs sportif Français, les commentateurs sportifs Anglais, les supporteurs dans un virage du stade, les deux entraîneurs, les joueurs et les arbitres.

En cours de jeu, vous pouvez choisir le commentaire sportif Français ou anglais, vous voudrez peut-être savoir ce que les joueurs disent sur le terrain plus clairement, ou peut-être vous voulez renoncer à l'ensemble des commentaires et juste entendre la foule ou les arbitres. Et pourquoi pas vous placer vous dans le public ou à l'extérieur du public.

Ou, que diriez-vous de placer votre position d'écoute à proximité des entraineurs et de placer le message sonore des entraîneurs à votre gauche et ceux des joueurs à votre droite ? Bien sûr, si vous voulez obtenir l'intégralité de l'écoute MDA et de son expérience interactive, vous devrez disposer d'un amplificateur home-cinéma pouvant lire les métadonnées de localisation spatiale codée et pouvant les distribuer dans votre environnement d'écoute en conséquence.

Au final, avec une approche basé sur les objets audio, l'ingénieur du son n'a pas à s'inquiéter d'avoir à refaire un mixage par format sonore. L'approche objet audio garantit un seul mixage pour plusieurs formats de restitution ce qui réduit les coûts de production et améliore l'efficacité du travail de mixage !

DTS:X :



Lors du CES 2011, DTS Inc. a annoncé un nouveau format audio à usage domestique le DTS NEO X qui permet de convertir des signaux sonores stéréo, 5.1, 6.1 ou 7.1 en 9.1 ou 11.1. Cela est rendue possible avec des enceintes placées en hauteur permettant d'ajouter la dimension verticale au champ sonore restitué.

Lors du CES 2014, DTS Inc. a présenté la première démonstration d'un décodeur DTS NEO X ( à base de puce Cirrus Logic ) intégrant l'approche basé sur des objets audio ( grâce au format de mixage MDA ) et rebaptisé momentanément DTS-UHD pour l'occasion. Le DTS-UHD ( rebaptisé DTS:X ) est le premier format de restitution audio basé sur des objets conçus pour le grand public. Ce format basé sur des objets audio accroît le réalisme grâce à un rendu spatial plus précis, l'ajout d'enceintes placées en hauteur ajoutant ainsi une dimension verticale du champ sonore, et la capacité à s'adapter à toutes les configurations home-cinéma. Bien évidemment la compatibilité descendante est garantie et il est possible de décoder un simple flux audio DTS avec un décodeur DTS:X. Le consommateur peut ainsi upgrader ( ou pas ) son système d'enceintes actuel ( 5.1 /7.1 / 9.1 / 11.1 / etc ) selon ses goûts, le décodeur DTS:X adaptant les signaux audio ( des objets ) en tenant compte de l'installation finale.

Lors du CES 2015, DTS Inc. a annoncé son nouveau format sonore immersif, le DTS:X ! Ce format est basé sur les objets audio et remplacera le DTS-HD Master Audio ( DTS-HDMA ).

Application en Home-cinéma :

Comme le Dolby Atmos, le DTS:X est une technologie de reproduction surround capable de diffuser un mixage basé sur les objets audio dans une installation sonore traditionnellement construite sur des positions d'enceintes fixes. Il intègre les caractéristiques suivantes :

  • 32 enceintes maximales,
  • technologie MDA permettant au ingénieurs du son de placer les objets audio n'importe ou n'importe quand,
  • technologie Neural:X permettant de repartir tout signal sonore ( stéréo à 5.1 d'origine ) sur toutes les enceintes quel que soit le nombre utilisé,
  • technologie Headphone:X permettant de simuler une reproduction 7.1.4 dans un casque audio stéréo,
  • fréquence d'échantillonnage maximum des bandes‑son DTS:X est fixée à 96 kilohertz.
  • Le DTS:X est en fait un codec à lui tout seul ( c'est à dire un dispositif capable de compresser et décompresser un signal audio numérique ).

Dolby Atmos :



Dolby Atmos fonctionne avec trois éléments principaux :

  • Plan audio : c'est le schéma de disposition des canaux, à nouveau en 5.1 ou 7.1, donc en gros le même que dans les anciens formats Surround. Les canaux individuels sont statiques à l'intérieur du plan.
  • Objets audio: ce sont des objets ou des groupes d'objets indépendants que l'on fait évoluer à travers le plan audio.
  • Métadonnées: ce sont les données de localisation des objets audio dans le plan audio ainsi que leur durée de vie.

Les objets audio ( 128 au maximum ) sont attribués par le moteur Atmos, en fonction du nombre de haut-parleurs réel. 24 HP pour le premier plan vertical + 10 HP pour le second plan vertical sont pilotable au total en application home-cinéma ( 34 HP au total ).

Application en Home-cinéma :

  • Le Dolby ATMOS est un format lossless ( compressé sans pertes audibles ).
  • Un câble HDMI avec la bande passante de la norme 1.4 suffit pour transporter un flux en Dolby Atmos.
  • Le signal source est encodé en 2.0 / 5.1 / 7.1 et permet de restituer un environnement sonore comprenant jusqu'à 34 enceintes.
  • Si votre amplificateur est compatible Dolby Atmos, quand le signal Dolby TrueHD est décodé, les objets audio et les métas données seront décodées.
  • Si l'amplificateur n'est pas compatible avec Dolby Atmos, le flux audio Atmos peut être décodé par la source (un lecteur compatible Dolby Atmos) en LPCM jusqu'à 32 canaux ( si le transport du flux se fait via HDMI 2.0 ).
  • Si vous n'avez pas d'ampli ou sources compatible, le flux encodé en Dolby Atmos sera retraduit en Dolby True HD ( si le signal source provient d'un lecteur bluray par exemple ) ou en Dolby Digital plus ( si le signal source provient d'un décodeur satellite / tnt par exemple ).

Dans une installation home-cinéma classique, deux haut parleurs supplémentaires sont un minimum pour avoir les effets du Dolby Atmos. La majorité des amplificateurs home-cinéma ne gérant pas plus de 11 canaux, on obtient alors les 5 configurations ( les plus répandues ) suivantes :

  • Une installation 5.1 devient 5.1.2 avec 2 enceintes plafond ou 2 enceintes orientées vers le plafond.
  • Une installation 5.1 devient 5.1.4 avec 4 enceintes plafond ou 2 enceintes orientées vers le plafond.
  • Une installation 7.1 devient 7.1.2 avec 2 enceintes plafond ou 2 enceintes orientées vers le plafond.
  • Une installation 7.1 devient 7.1.4 avec 4 enceintes plafond ou 2 enceintes orientées vers le plafond.
  • Une installation 9.1 devient 9.1.2 avec 2 enceintes plafond ou 2 enceintes orientées vers le plafond.

Puisqu'il est nécessaire d'ajouter des haut-parleurs ( au moins 2, idéalement 4 ) pour recréer une nouveau plan sonore vertical, deux types de solutions existent :

  • ajouter des hauts parleurs intégrable dans le plafond.
  • ajouter au dessus de vos enceintes principales des enceintes ( appellées Add-on ) dirigées vers le haut du plafond, permettant au son produit par ces enceintes de se réflêchir au plafond jusqu'à la zone d'écoute. Vous aurez ainsi l'impression que le son vient d'en haut.

Evidemment si vous possédez un amplificateur gérant plus de 11 canaux, vous pourrez ajouter autant d'enceintes que l'ampli peut en piloter, le Dolby Atmos les exploitera. Quel que soit le nombre d'enceintes, le Dolby Atmos n'autorise qu'un seul canal LFE donc l'emploi d'un seul caisson de basse.

Barco Auro 3D :

L'Auro-3D est le format Immersif qui a révolutionné l'industrie du cinéma avec un véritable son 3D. Auro-3D est également le premier format de son 3D amené en home-cinéma, avec l'introduction de récepteurs audio-vidéo en Janvier 2014.

Notez que Auro-3D n'est pas un format classique surround, mais un format immersif. Quelle est la différence ? Les formats surround, comme les formats 5.1 et 7.1 sont des formats à 2 dimensions ( X et Y ) en utilisant un plan auditif autour de l'auditeur. Ce ne sont pas des formats audio 3D ( X, Y, Z ) permettant d'envelopper complètement l'auditeur.



Tout comme l'est le DTS-UHD, l'Auro-3D est un codec ( c'est à dire un dispositif capable de compresser et décompresser un signal audio numérique ). Un autre point commun est que l'Auro-3D, l'Atmos ou le DTS-UHD sont des formats hybrides, ce qui signifie qu'ils combinent l'approche basée sur les objets audio et l'approche basé sur les canaux audio. Néanmoins, l'exploitation de l'approche basé sur les objets audio diffère pour l'Auro-3D : Si le Dolby Atmos utilise à 90% l'approche basée sur les objets audio, l'Auro-3D exploite majoritairement l'approche basé sur les canaux audio considérant le son à trois dimensions plus naturel que si l'on essaie de recréer artificiellement l'environnement réel avec l'approche basée sur les objets audio. Les tolérances et l'évolutivité des réglages d'enceintes est beaucoup plus faible que ce que la plupart des gens croient, et cela ne peut pas être compensé par un rendu basée sur les objets audio sans affecter la qualité audio.

Une installation avec seulement deux enceintes en hauteur (comme l'Atmos 5.1.2 avec 2 haut-parleurs de hauteur de côté) ne peut pas reproduire un environnement sonore 3D complet : le simple survol d'un avion n'est pas crédible car l'avion serait aussi présent derrière l'auditeur dans les enceintes surround. Vous devez avoir au moins 4 haut-parleurs en hauteur par dessus un système surround. D'autre part, certaines personnes pensent que plusieurs haut-parleurs est toujours mieux et plus immersif. Cependant, ajouter des haut-parleurs supplémentaires au-delà du minimum nécessaire pour créer un champ sonore 3D (qui dépend de la taille de la pièce d'écoute et la taille du sweet spot), va ajouter des difficultés en matière de rendu, de phasage, de workflow et cela à un coût. En outre, la localisation précise des sons est absolument pas l'aspect le plus important dans une expérience immersive. La recherche scientifique a prouvé que la couleur du son est la clé pour atteindre un son naturel. Pour cette raison, le format Auro-3D a choisi d'offrir un son de haute définition pour chaque canal combiné avec une disposition de haut-parleur unique ce qui permet l'expérience sonore immersive la plus naturelle.



Bien sûr, il y a des facteurs plus importants que la localisation précise des sons. Plus de 90% de ce que nous entendons dans la vie réelle est réfléchie en 3 dimensions autour des objets, et ne provient pas de la source directe. La reproduction de ces réflexions devrait être fait lors du rendu dans les systèmes à base d'objets audio, mais c'est impossible en raison de la puissance de traitement nécessaire. C'est la raison pour laquelle les sons natifs enregistrés par canal en utilisant le système Auro-3D sonnent beaucoup plus naturellement que dans un système à base d'objets audio. Les réflexions les plus importantes ne viennent pas d'en haut mais bien de l'avant et des côtés. Pour cette raison, le champ unique "stéréo verticale" est un bien meilleur choix pour recréer ces réflexions autour des sources 3D en mouvement.

La précision verticale est aussi importante que la précision horizontale, mais la localisation verticale est traitée par notre cerveau d'une manière différente de celle horizontale. Notre système auditif est orienté horizontalement et étant donné que nous n'avons pas une oreille au-dessus de notre tête, nous ne sommes pas en mesure de localiser des sources sonores fantômes entre deux haut-parleurs placés verticalement l'un au-dessus de l'autre. Pour cette raison, plusieurs couches verticales de haut-parleurs sont nécessaires en complément de la couche inférieure qui est idéalement positionnée le plus proche possible du niveau de l'oreille. Cela crée une propagation verticale plus naturel de l'énergie sonore, ce qui crée une expérience d'écoute plus naturelle.

Une autre différence importante est le nombre de voies frontales. Au cinéma, Dolby Atmos utilise les 3 voies habituelles ( gauche / centre / droit ) et pour les grands écrans monte jusqu'à 5 voies dans un plan horizontale unique. En revanche, Auro-3D utilise six voies frontales sur deux plans verticaux. En cinéma numérique, l'Auro-3D monte jusqu'à 26.1 ( 3 plans verticaux d'enceintes dans ce cas ).

Application en Home-cinéma :

  • Auro-3D est un format lossless ( compressé sans pertes audibles ).
  • Le signal source est encodé en 5.1 / 7.1 et permet de restituer du 9.1 / 10.1 / 11.1 / 13.1 ( 24 enceintes adressables au maximum ).
  • Auro-codec est le codec permettant une séparation des voies de 100%. N'importe quel flux Auro-3D inclue un mixage 5.1 ( transmis en PCM ) garantissant une lecture possible si l'amplificateur n'est pas compatible Auro-3D.
  • Un câble HDMI avec la bande passante de le norme 1.4 suffit pour transporter un flux Auro-3D
  • Auro-3D s'est associé en 2015 avec MBS pour commercialiser les premiers amplificateurs compatibles : Auriga ( 15 000 euros ), Crux et Mensa ( tarifs inconnus ).

Standard audio immersif pour la télévision UHDTV :

l'ITU a publié en février 2014 une recommandation pour un système sonore évolué pour la production de programmes ( voir document ITU-R BS.2051 ). Ce document ne spécifie pas un format sonore immersif spécifique mais les recommandations à respecter pour en standardiser un. Il décrit notamment ce que doivent contenir les métas-données, les positions et les configurations des haut-parleurs, les possibilités d'interaction entre le format sonore évolué et le consommateur.

Il n'existe pas encore de standard audio immersif ( au sens unique et de portée mondiale ) propre au monde de la télévision, mais les différentes standardisations nécessaires sont en cours :

  • En 2008, le SMPTE a officialisé les caractéristiques qu'un signal dit immersif doit pouvoir exploiter an association avec une vidéo UHDTV ( voir document standard SMPTE ST 2036-2 ).
  • L'AES3-2003 est spécifié comme le standard de communication dédié au transfert de données audio numériques à la captation ( couches physique et liaison du modèle ISO, par exemple entre les micros et la console d'enregistrement ), et un système multi-canal 22.2 est définit sur trois plans verticaux (haut, milieu et bas), comprenant 22 canaux pleine bande et deux canaux LFE. En outre, les paramètres suivants sont spécifiés pour l'audio :

- Le taux d'échantillonnage : 48, 96 Khz"

- Profondeur de bits : 16, 20, 24

- Nombre de canaux: 24 (pleine largeur de bande)

- Le format audio étant hybride, il sera possible d'utiliser l'approche basé sur les objets audio.



Le mixage et la structure de fichier sera surement celle qui est en train d'être définie par le groupe de travail TC-25CSS ( voir plus haut ). Ainsi le cinéma numérique et la télévision se rejoindront pour le format de mixage audio immersif.

Le mode de compression doit être idéalement sans perte mais la bande passante étant limité en broad casting, il est possible d'utiliser des compressions dites "sans pertes audibles" qui sont psycho acoustiquement transparente et ne permettant pas de distinguer de différence avec le signal brut non compressé.

Le signal audio transmis devra pouvoir s'adapter aux configurations multiples que l'on retrouve chez les consommateurs ( casques, barre de son, système home-cinéma, enceintes murales, ... ).

Le MPEG-H 3D audio :

De son côté MPEG, a lancé un nouveau standard ( le MPEG-H ), composé d'une partie système, d'une partie vidéo et d'une partie audio. La cible de ce format est l'ultra HD dans le sens ou le MPEG-H veut s'imposer comme le format de "container" type pour l'ultra HD.

La partie son de ce standard ( MPEG-H 3D audio ) est conçue pour transmettre un son 3D immersif ( avec différents plans sonores verticaux ) à partir d'un modèle classique 5.1. Ce standard accepte autant les formats audio basés sur les canaux ( comme Auro 3D par ex. ) que les formats audio orientés objets audio ( comme le Dolby ATmos par ex. ). Le nombre maximum de canaux est de 22 + 2 canaux LFE pour la reproduction des basses fréquences.

Le MPEG-H devrait être spécifié à la mi-2015.

Le Dolby AC-4 :

Côté grand public, le codec Dolby Digital Plus permet de coder l’audio multicanal jusqu’au 7.1. Avec l’arrivée de la norme de codage HEVC de l’image, Dolby propose un pendant pour la compression audio appelé Dolby AC-4. La norme AC-4 a été normalisée à l’ETSI (European Telecommunications Standards Institute) en avril 2014 (normes DVB) et devrait être déployé en 2015. Comme la rétrocompatibilité n’est pas assurée avec le parc de décodeurs existants, Dolby le positionne comme un codec susceptible d’être embarqué avec les puces de décodage HEVC.

L'AC-4 offre de nouveaux algorithmes de codage, en particulier sur la voix. Dolby annonce une qualité de type TNT en 5.1 à 96kbps, un équivalent du signal stéréo MPEG-1 layer 2 à 192kbps représente 40 à 64kbps, la voix serait codée à 24kbps. D’autres caractéristiques sont proposées : le streaming adaptatif pour faire évoluer la qualité du signal en fonction du débit internet disponible, la gestion native du Loudness, un mécanisme de synchro avec la vidéo, le rehaussement du niveau de dialogue (pour le faire ressortir en particulier sur les TV d’entrée de gamme) et la gestion de la dynamique. Enfin, Dolby annonce plus d’accessibilité (notamment l’audio description), de l’interactivité entre le spectateur et le contenu, une plus grande immersion et l’adaptabilité aux systèmes de reproduction cible.