vendredi 26 juin 2009

LES QUATRE FORMATS AUDIO LES PLUS RÉPANDUS EN 2009 À BAS DÉBIT

LES QUATRE FORMATS AUDIO LES PLUS RÉPANDUS EN 2009 À BAS DÉBIT

Notes explicatives

§ Ce topic ne fait que donner mon point de vue sur les quatre formats audio les plus en vogue. Il ne s’agit nullement d’un historique, mais juste d’une série de commentaires aussi objectifs que possible.

§ Par « bas débit », j’entends des fichiers dont le bitrate maximal ne dépasse pas 128 kb/s.

§ Par « bitrate » (appelé également « débit » ou encore « vitesse de transmission »), comprenez le nombre de bits que, chaque seconde, l’encodeur utilise dans un fichier en vue de coder du son (ou des images, mais ce n’est pas le sujet ici…).

§ Le VBR est un mode d’encodage de fichiers tel que le bitrate varie dynamiquement chaque seconde au sein dudit fichier en fonction de la nature et de la complexité des données, ce qui confère une qualité audio constante et souvent bonne. Le CBR, lui, encode à bitrate quasi-constant

§ Par « encodage », veuillez saisir diminution de la taille d’un fichier son en un fichier de format plus compact, par suppression d’informations redondantes ou jugées telles

1. Le MP3

Il s’agit de l’un des premiers formats audio à être connus du grand public, surtout internaute. Conçu par l’institut Fraunhofer déjà depuis fin 80, il s’est sans cesse amélioré depuis. De plus, cette ancienneté dans la conception lui confère une compatibilité quasi-parfaite avec les lecteurs du moment (radios, baladeurs, platines DVD, téléphones), ce qui fait de lui un format souple et polyvalent.

Bien entendu, polyvalence ne rime que rarement avec qualité et c’est le cas de le dire pour le MP3. En effet, l’audiophile averti sentira qu’à 128 kb/s, malgré les améliorations des algorithmes d’encodage, le son manque de certaines notes dans les aigus extrêmes. En dessous de ce bitrate, c’est le cauchemar auditif assuré où métallisation du son cohabite avec pertes profondes des sons aigus ou proches des aigus, particulièrement quand le bitrate maximal est de 64 kb/s… Notons en passant qu’outre le bitrate, la qualité sonore est grandement fonction de l’encodeur utilisé. Alors que les algorithmes récents (du genre Lame 3.9xx) accomplissent des exploits, les encodeurs de premières générations piétinent parfois sérieusement ! Ainsi, une chanson X codée à 128 kb/s aura un son plus ou moins irrespectueux de l’original selon l’algorithme utilisé.

Comme j’y suis, l’encodage en MP3 prend du temps même avec un ordi puissant style Pentium IV. Certes, l’encodeur Xing est rapide, mais seule la dernière version (payante…) produit des MP3 écoutables. Et je vous épargne les péroraisons sur la lenteur extrême lorsqu’on encode en VBR… Certes, le mode VBR, du fait qu’il adapte le débit binaire à la complexité du son, donne des résultats louables, mais la taille des MP3 créés, si l’on désire bénéficier de ladite qualité louable, grossit démesurément (plus de 160 kb/s) et… sort par conséquent de mon topic !

Bref, le MP3 n’est pas très fameux en bas débit. Heureusement pour lui, l’espace de stockage des disques durs et des baladeurs ne cesse d’augmenter. Format archi-répandu, le MP3 a encore de très très longs jours devant lui.

2. Le WMA

N.B. : Ma prolixité pour ce format ne doit que ne pas vous inquiéter. Ce n’est pas par hasard que je me nomme WMA Imperator…

Créé sous sa syntaxe binaire actuelle en fin 99, le WMA est le format de la cupide Micro$oft. Il utilise, semble-t-il, du moins globalement, des algorithmes de compression similaires à ceux du MP3. Toutefois, des améliorations notables sont apportées par rapport à l’ancêtre. Dès les origines, à des débits inférieurs à 128 kb/s, le WMA produit un son plus net et plus riche que le MP3. Ce n’est pas si terrible, Madame Métallisation sévissant en ces si bas débits, mais c’est appréciable… La version 9 du WMA, sortie fin 2002, améliore encore le rendu sonore, bien qu’on ne soit pas au niveau du MP3 Pro. Il est vrai qu’à 128 kb/s, la qualité du son dépasse très légèrement celle du MP3 (et encore pour certaines chansons), mais à 96 kb/s et surtout à 64 kb/s, ses concurrents (AAC et Ogg Vorbis) donnent des résultats des plus appréciables.

Question vitesse d’encodage, elle est l’une des plus rapides parmi les formats audio, en tout cas la plus rapide des cinq formats et ce, même en mode VBR[1] ! Et celui-ci produit un son fort convenable à des débits compris entre 50 et 100 kb/s à partir de VBR 50 (qualité dite moyenne). En effet, Micro$oft est parvenu à soigner la restitution des sons de bas volume et à réduire la métallisation, mais au détriment des basses quand le débit est aussi faible. En mode VBR, préférez l’encodeur 9.0 ou 9.2 et non 9.1 qui produit des fichiers inutilement lourds, mais de qualité étrangement identique aux mêmes fichiers produits en 9.0 et 9.2 ! Allez-y comprendre quelque chose… Dieu merci, l’encodeur WMA est gratuit.

Cela n’empêche cependant pas Micro$oft de jouer à l’ultra-capitaliste, notamment en étant en bonne intelligence avec des individus partageant sa tendance. Il a ainsi réussi à doter les WMA, de manière optionnelle (ouf !), de tout un système de protections alias DRM qui restreint singulièrement l’utilisateur des fichiers dans ses manœuvres peu innocentes sur lesdits fichiers, je veux dire par là gravure (limitée généralement à moins de sept fois) et la copie (proscrite sur un autre ordi, limitée à très peu de fois sur un baladeur). Cette option, qui fait la joie des maisons de disques, est kafkaïenne pour l’utilisateur lambda. En effet, non seulement que les lecteurs des WMA protégés ne courent pas les rues et coûtent nettement plus cher que leurs homologues incapables de lire du DRM, mais en outre, la manipulation future desdits WMA s’avère ardue, voire à risque, tant pour le fichier que pour la machine. C’est la raison pour laquelle des logiciels de crack du genre FairUse4WM sont, pour beaucoup, un petit moïse du piratage…

Afin de damer le pion à ses concurrents, la firme de Redmond a jugé utile de décliner son format en multiples variantes. À côté de la version basique, dite standard (ou classique, la plus répandue), on retrouve la version vocale, la version lossless (sans perte de qualité audio, du VBR pur) et la version dite Professional. Ces deux dernières variantes, non contentes de coder des sons multicanaux (jusqu’à huit), améliorent sensiblement la qualité auditive. À des débits aussi bas que 48 ou 64 kb/s, il arrive que le WMA Professional (notamment dans sa version 10, fortement améliorée par rapport à la version précédente) fasse mieux que de l’AAC ou de l’Ogg Vorbis (voir infra). Mais son mode VBR est perfectible en ces bas bitrates. Le hic dans tout ça, c’est que très peu de dispositifs lisent couramment toutes ces subdivisions du WMA. Les variantes vocale et lossless sont quasiment ignorées. La variante Pro n’est lue que par le baladeur Zune (en stéréo), les téléphones tournant sous Windows Mobile (peu répandus), la XBOX 360 et les platines Blu-Ray. Le WMA standard, pour sa part, a des chances d’être décodé presque à 100 % dans les baladeurs à mémoire flash ou à disque dur (excepté les iPod). Pour les radios, chaînes hi-fi et autres Smartphones, il faut fouiller pour dégoter du matériel compatible…

Somme toute, le WMA est un bon format si on veut économiser de l’espace de stockage. Il est plus compatible que tous ses concurrents (mis à part le MP3), mais s’avère globalement moins performant en fait de qualité audio. Mais à vouloir trop faire (cf. DRM), Micro$oft est butée à la grogne des consommateurs.

3. L’Ogg Vorbis

Le format Ogg Vorbis est la propriété de la Xiph Foundation. Sa version stable date de fin 2001 et il a depuis connu pas mal d’améliorations. Son avantage principal est qu’il s’agit d’un format libre de droits, c'est-à-dire à partir duquel l’utilisateur peut créer des milliers et des milliers de fichier sans être inquiété par quelque redevance inhérente audit format[2]. Pour les radios virtuelles et celles en chair et en os, c’est un soulagement !

Par ailleurs, Ogg Vorbis est un format essentiellement VBR, ce qui lui donne une grande qualité d’encodage. Dans les bitrates inférieurs ou égaux à 128 kb/s, il restitue un son impeccable, même à 64 kb/s. Il est juste que certains aigus paraissent augmentés, mais la métallisation se retrouve ici fortement réduite. Les procédures d’encodage en Ogg Vorbis disposent d’un modèle psycho-acoustique qui diffère largement des autres formats de compression, notamment par la possibilité d’user de plusieurs schémas prédéfinis de réduction de données (même dans une seule chanson) en fonction du contexte musical (les fameux codebook). Le WMA standard ferait pareil, mais cela reste du domaine de la spéculation. Du Par ailleurs, Ogg Vorbis offre théoriquement un son véritablement multicanal, le nombre de canaux audio pouvant atteindre le faramineux chiffre de… 256 !

Ogg Vorbis pèche cependant essentiellement dans sa popularité. C’est que seuls les audiophiles bidouilleurs de l’audio connaissent ce format. Les marques qui proposent le décodage de l’Ogg Vorbis ne sont pas des plus nombreuses quant aux baladeurs. Toutefois, les platines divX tendent systématiquement à lire ce format. Et je ne vous parle pas de la souffrance mentale qu’endure le processeur lors de l’encodage et du décodage. Les algorithmes utilisés suivent en effet, je l’ai dit, une logique fort peu apparentée à celle dont usent ses concurrents. Et ces algorithmes s’érigent en virtuoses de la complexité…

Bref, Ogg Vorbis est un excellent format plein d’avenir. Gratuit au sens total du terme, il est néanmoins encore buté à des problèmes de compatibilité et de puissance de calcul. Dès qu’ils seront levés, l’Ogg Vorbis est en passe de détrôner le MP3, voire le WMA.

4. L’AAC

Conçu en partie par Coding Technologies et en partie par Fraunhofer, l’AAC est censé corriger les artefacts indissociables du MP3, voire de l’éradiquer… Force m’est de l’avouer, il a tous les atouts quant à ce. Il ne se contente pas d’être multicanal (jusque 48 canaux audio !) et de jongler comme il se doit avec le mode VBR. L’AAC, autrement appelé MP4, accomplit des prouesses à bas débit. À 96 kb/s, ce format sonne légèrement mieux que du MP3 à 128 kb/s. À 64 kb/s, on dirait du Ogg Vorbis à ce débit, mais sans saturation d’aigus. C’est vous dire la haute qualité auditive de l’AAC. Le seul format digne de rivaliser avec le MP4 est le WMA Pro de Microsoft, dont le rendu sonore est très proche, surtout à des débits binaires inférieurs ou égaux à 96 kb/s avec la version 10.

Une évolution de l’AAC, baptisée AAC+, se tape le luxe de créer des fichiers assez corrects à 48 kb/s, grâce à un algorithme baptisé « stéréo paramétrique » (Parametric Stereo »). À ce bitrate particulièrement bas, il délivre le meilleur rendu sonore des trois formats précédents.

Revers de la médaille, l’AAC encode ses fichiers avec une lenteur désespérante. Pour ce qui est de la compatibilité, elle n’est pas très assise, l’un des rares dispositifs pouvant les décoder étant les baladeurs Ipod, heureusement de plus en plus répandus. Quant aux platines de salon et aux chaînes hi-fi qui lisent ce format, elles n’abondent guère. Notez enfin qu’à l’instar de Micro$oft, de manière optionnelle, une protection restrictive de copie et de gravure est proposée pour l’AAC, au grand dam des pirates de tout bord.

Au demeurant, le MP4, bien qu’étant presque parfait en termes de qualité audio, ne fait pas de bons points dans les branches compatibilité et vitesse d’encodage, à l’instar de l’Ogg Vorbis.

Conclusion finale

Quel format audio faut-il alors adopter ? Tout dépend de l’usage destiné aux fichiers encodés. Si votre mélomanie ne s’exprime que sur PC, seul votre organe auditif sera l’ultime juge. Et là, tout format peut faire l’affaire.

Si votre audiomanie vous tourne du côté des baladeurs à disque dur ou à mémoire flash, l’économie d’espace de stockage sans sacrifice de la qualité sonore s’impose. Ici, on fait de grands signes d’adieu au MP3 qui, on l’a vu, est une injure pour l’ouïe à bas débit.

Pour l’écoute à une chaîne hi-fi de la musique gravée sur CD ou DVD, le format qui vaut est le WMA. En effet, pour peu que ladite chaîne lise ce format, il produit des fichiers de qualité acceptable et de taille réduite, surtout en mode VBR 50 ou 75. De plus, sa compatibilité grandissant, vous ne serez pas dépaysé.

Au cas où vous désireriez diffuser sur le Net ou en radiodiffusion standard avec un son net et tolérable, seuls trois formats attirent mon humble attention : l’AAC, le WMA et l’Ogg Vorbis, avec une préférence pour ce dernier. C’est que le format de la Xiph Foundation, je vous l’ai dit, est libre de droits, ce qui signifie que la station de radio ou le serveur Internet n’auront pas à payer de redevances qui seraient rattachées au format (les redevances musicales demeurant…).



[1] Du moins dans la version classique, la version Pro et la version Lossless multicanale n’étant pas des plus véloces dans l’encodage… Voir infra.

[2] Ce qui ne veut nullement dire que la musique enregistrée échappe à la redevance audiovisuelle !

dimanche 21 juin 2009

Tour rapide des principaux codecs vidéo en 2009

Tour rapide des principaux codecs vidéo en 2009

Quelques définitions, avant d'entrer en matière

  • Un codec est un algorithme dont la vocation est d'enregistrer (encoder) ou de lire (décoder) de l'audio ou de la vidéo (en ce qui nous concerne) en compressant (encodage ou conversion) ou en décompressant (lecture) les données. Un ordi ou un dispositif quelconque de lecture devra disposer en mémoire du codec correspondant à la vidéo ou à l'audio qui sera lu, faute de quoi la lecture sera impossible. Sur le Net circulent des packs de codecs gratuits réunissant les algorithmes d'encodage et de décodage de la plupart des formats audio et vidéo courants, packs à installer à tout prix si vous êtes un bidouilleur. Mais gare aux instabilités système, lesdits packs créant parfois des conflits avec Windows…
  • La compression est le processus par lequel des données informatiques (ici, des vidéos) sont réduites en taille mémoire grâce à des mécanismes plus ou moins élaborés de suppression d'informations répétitives ou jugées inutiles par l'algorithme. Il est deux types de compression : avec perte de données (Lossy) ou sans perte (Lossless).
  • La décompression est le processus inverse de la compression, c'est-à-dire la restitution des données en une structure qu'une carte son (ou un circuit audio) ou une carte graphique (ou un circuit vidéo) peut exploiter. Cette définition exclut les transmissions purement numériques de type HDMI (pour la vidéo haute définition) ou S/PDIF (pour l'audio de haute qualité) qui, en fait, nullement l'algorithme du format audio ou vidéo pour restituer les données. Notez que la décompression d'un signal encodé avec perte d'informations ne restituera point les données perdues lors de l'encodage.
  • Un container est un type particulier de fichier, souvent audiovisuel, qui associe en son sein le son, l'image et éventuellement les sous-titrages, le tout censé être parfaitement synchronisé. Un format vidéo est généralement en lui-même container renfermant en lui un codec audio et un codec vidéo, les deux parfois de provenance et de nature très différentes.
  • Le pixel est le point élémentaire d'affichage sur écran, par association des trois couleurs rouge, vert et bleu (la chrominance), et du degré de luminosité (la luminance).
  • La pixellisation est un incident au travers lequel toute l'image ou une partie de celle-ci (surtout les zones de mouvement rapide) est décomposée en gros carrés (damiers). C'est le signe d'un taux élevé de compression.
  • Le mode entrelacé (symbole « i ») est le mode d'affichage des téléviseurs traditionnels. Il consiste en ce que l'image apparaît sur écran par balayages horizontal et vertical. Il est de plus en plus supplanté par le mode progressif, qui délivre une meilleure qualité visuelle. Ici, l'image apparaît progressivement et horizontalement. C'est le mode d'affichage des ordis et des écrans à cristaux liquides (LCD).
  • La résolution représente la qualité d'affichage, exprimée par la formule nombre de pixels horizontaux fois nombre de pixels verticaux.
  • Le bitrate, appelé également débit binaire ou encore vitesse de transmission, est le nombre de bits par seconde utile au codage du son et/ou de l'image. Il est exprimé en kbps ou en Kbits/s (kilobits par seconde), parfois en Mbits/s (mégabits par seconde). À ne pas confondre kilobit et kilooctet. Un kilooctet vaut huit kilobits.
  • La HD ou Haute Définition désigne des vidéos encodées en de grandes résolutions (1920 X 1080 ou 1080 X 720) et, partant, en haute qualité. Il désigne aussi parfois du son encodé en quatre baffles minimum, ce qui crée une ambiance de grande réalité (on croit que l'on vit dans le film ou dans le clip).
  • Le Blu-Ray est une évolution du DVD, dont la capacité peut atteindre (voire dépasser) 50 Go ! Il accueille essentiellement des films en haute définition. Il a remplacé il y a un an son concurrent direct, le HD-DVD, désormais enterré.
  • La Télévision Numérique Terrestre (TNT) est une nouvelle norme de diffusion numérique des programmes TV commune à beaucoup de pays européens. Une simple antenne râteau et un décodeur approprié suffisent à capter le signal.
  • Une extension est une suite de caractères, précédés d'un point, qui terminent le nom d'un fichier et qui indiquent la nature de ce dernier et, par conséquent, le logiciel et/ou le lecteur capable de le lire et/ou de le modifier. Attention : l'extension d'un fichier dont Windows connaît l'association avec un programme déterminé est rarement visible, à moins de le paramétrer.

Les codecs proprement dits

  1. Le MPEG I

Le Moving Picture Expert Group, des chercheurs plus que rodés dans le domaine de l'image et disséminés à travers le monde, voulurent, fin 80, inventer un standard dans l'archivage numérique de l'audio-vidéo. Après cogitations et nuits blanches, ils créèrent un format censé placer tout un film de 74 à 80 minutes sur un seul CD-ROM. Ainsi est né le MPEG I dont le débit vidéo est d'environ 1,2 Mbit/s. L'audio, lui, est encodé à 224 kbps en un format conçu pour la circonstance, mais encore largement utilisé de nos jours dans la diffusion satellite, TNT et dans les DVD vidéo : le MPEG I Layer II, plus couramment appelé MP2, grand frère du célébrissime MP3. L'audio-vidéo est encapsulé dans un container appelé… MPEG, tout simplement, avec comme extension .mpg. Au sein des VCD (supports de prédilection de ce format), l'audio-vidéo est plutôt encapsulé en un container portant l'extension .dat.

Prouesse technologique au début des années '90, le MPEG I est actuellement dépassé. La qualité de l'image n'est pas au rendez-vous, même en appliquant les paramètres d'encodage les plus aboutis. Au mieux, on croirait visionner une bonne K7 VHS. Certes, la norme MPEG permet d'augmenter le débit à volonté (j'ignore la limite maximale), mais rares s'avèrent les lecteurs de salon en mesure de supporter d'autres bitrates que la valeur officielle, c'est-à-dire environ 1,2 Mbit/s. Par ailleurs, le MPEG I ne peut être aisément encapsulé avec un autre codec audio que le MP2 qui, je vous assure, ne délivre pas un son des plus transparents à 224 kbps, seul débit toléré par les lecteurs de salon ici.

  1. Le MPEG II

Le MPEG II, dont le développement a été achevé courant 1995, est le codec idéal du DVD, de la réception satellite et de la TNT ordinaire (pas la TNT-HD). Son champ d'applications, comme vous vous en rendez compte, est immense, même en 2009. Il utilise de hautes vitesses de transmission (au moins 4 Mbits/s pour espérer une bonne qualité). À débit égal, le MPEG II est de meilleure facture que le MPEG I. c'est aussi l'un des candidats de la HD, jadis fortement utilisé dans le HD-DVD, mort en février 2008, mais pas trop utilisé dans les DVD Blu-Ray qui lui préfère le VC-1 ou le H.264 (on y reviendra). Du reste, le MPEG II supporte les images entrelacées et progressives, le MPEG I ne supportant que ces dernières. Le MPEG II, enfin, n'est pas figé à un bitrate quelconque : la vidéo est généralement encodée de 2 à plus de 25 Mbits/s en débit constant (CBR) ou variable (VBR), ce dernier améliorant la qualité de l'image en adaptant le bitrate en fonction de la complexité des scènes. L'audio qui accompagne ce codec est bien souvent du MP2 échantillonné à 48 kHz, à débit fixe ou variable allant de 32 à 384 kbps. Le son peut cependant être de l'AC3, autrement nommé Dolby Digital, le codec audio idéal du DVD de commerce, codec expert en son multicanal qui vous plonge dans une ambiance époustouflante. L'AC3 autorise uniquement un débit constant, allant également de 32 à 384 kbps. Les supports audiovisuels de dernière génération sont capables d'encapsuler le MPEG II avec d'autres codecs audio comme le DTS et toutes ses variantes, le MP3, etc. Comme container, à l'instar du MPEG I, le MPEG II use du container MPEG, dont l'extension est .mpg. Les DVD commerciaux, les SVCD, évolution du VCD, quant à eux, se servent plutôt du VOB comme container, dont l'extension est .vob. Les DVD usent communément d'un débit allant de 6 à 9 Mbits/s, alors que les SVCD, pour espérer une lecture assurée sur une platine de salon, ne devrait pas excéder 2,6 Mbits/s, avec son obligatoirement échantillonné à 48 kHz.

Le MPEG II, cependant, est, comme d'ailleurs tous les formats modernes, lent à l'encodage. À des débits inférieurs à 2 Mbits/s, la qualité est à peine améliorée par rapport à MPEG I à cette vitesse de transmission, ce qui fait du MPEG II un codec créant des fichiers lourds et encombrants. De plus, les encodeurs gratuits qui font du bon travail en MPEG II ne fourmillent pas.

  1. Le MPEG IV

En soi, MPEG IV est une norme, plus qu'un codec. Il s'agit en fait de toutes une flopée de recommandations et de nouvelles technologies censée remplacer MPEG I et II. De tout cela ont découlé de multiples codecs vidéo qu'on examinera tout à l'heure. Improprement, le mot MPEG IV désigne un codec né vers 2000, aboutissement de ce que les développeurs appellent la deuxième partie de la norme (MPEG IV Part II). Microsoft s'est largement inspiré de spécifications dudit codec dans la vue de créer son WMV. Les concepteurs du DivX se sont plus qu'inspirés du codec modifié (en fait, cracké) de Microsoft pour créer leur format, du moins jusqu'à sa version 6.

Question qualité, le MPEG IV de base dépasse celle produite par le MPEG I à bitrate équivalent et est à peine légèrement meilleur que le MPEG II à débit égal. L'amélioration de compression n'est donc pas fameuse. Toutefois, l'encodage à l'aide de ce codec est relativement rapide, moins gourmand en ressources processeur que le MPEG I et nettement plus véloce que le MPEG II. Le MPEG IV Part II est encore amplement proposé comme codec d'enregistrement des vidéos aux moyens des cartes d'acquisition. Le codeur Windows Media (toujours de Microsoft) peut également encoder en ce format, mais en l'encapsulant dans son container ASF et non AVI, plus commun, celui supporté par les platines de salon. Ces dernières néanmoins lisent mieux le container AVI disposant de ce codec si la partie audio est du MP3 ou du WAV. La vidéo peut devenir muette si le son est enregistré en un autre format. Théoriquement, le MPEG IV est en mesure de se synchroniser en AVI avec quasiment tous les formats audio. En ASF cependant, l'audio devra être du WMA (même si théoriquement Microsoft nous raconte que l'ASF est censé supporter tous les formats audio).

  1. Le Divx

Tout le monde versé dans le multimédia connaît la fumeuse histoire du DivX aux origines suspectes, car, je l'ai signalé plus haut, issu du crack du codec MPEG IV modifié par la firme de Redmond. Depuis lors, il a nettement évolué. La version la plus répandue, qui n'a plus que très peu de choses en commun avec le MPEG IV d'origine, est celle sortie en 2002 : le DivX 5.0. Grâce à d'astucieux mécanismes de compression, il est capable de faire tenir un DVD de 2 heures pesant 4,7 Go en un seul CD-R de 700 Mo, avec une perte plus que tolérable de la qualité ! Vous comprendrez que dans les milieux pirates et dans les réseaux de partage plus ou moins illégaux du Net, le DivX règne en dieu… Toutefois, si vous désirez encoder en DivX, une machine costaud est exigée, de préférence un PC à processeur double ou multi-cœurs. Il convient d'éviter de s'amuser pour ce faire avec les options avancées qu'offre ce codec génial (comme l'estimation au quart de pixel ou Qpel), ce qui est susceptible d'interdire la lecture sur certaines platines de salon. De même, alors que le DivX peut-être encapsulé avec la majorité des formats audio, il est recommandé d'user du MP3 comme bande son, compte tenu de sa compatibilité. Il est toutefois déconseillé d'encoder le son à débit variable (VBR) : il est des risques de désynchronisation entre l'audio et la vidéo.

Jusqu'à la version 5, le container de choix du DivX était l'AVI. Mais depuis la version 6, il est possible d'encoder en .divx, container plus souple que l'AVI en ce sens que les fichiers créés ne sont pas limités en taille (l'AVI souffre d'une limite maximale de 4 Go) et peuvent bénéficier des sous-titrages en plusieurs langues. La version 7 du codec, sortie fin 2007, semble, elle, utiliser une variante du codec H.264 dans ses algorithmes de compression. On parlera de ce codec fabuleux dans les lignes qui suivent.

Le DivX étant un format soumis à licence et payant à l'encodage depuis sa 6e version (théoriquement), une communauté de développeurs ont décidé de créer et de faire évoluer un format reprenant presque toutes les caractéristiques du DivX, mais sans contrainte de droits d'exploitation. Ledit format et codec a été baptisé XviD, anagramme de DivX. Selon les bricoleurs du multimédia, il offre globalement de meilleures performances que son cousin, même si l'encodage est un poil plus lent. Encapsulé en AVI, le XviD peut s'associer en audio avec les mêmes codecs que le DivX et être lu par toutes les platines qui lisent celui-ci.

  1. Le WMV

S'inspirant largement du MPEG IV Part II, Microsoft mit au point Windows Media 7 en 2000. Très rapide à l'encodage, la qualité n'était que légèrement améliorée par rapport au MPEG IV. Le sachant pertinemment, un an plus tard, les labos à Billou eurent extrait de leurs alambics le WMV 8 qui augmentait le rendu visuel de son processeur jusqu'à 50% ! C'est en 2003 que la firme de Redmond cassa la baraque lors de la sortie du WMV version 9. Excellente qualité d'image, mais encodage lent, à l'instar de son frère ennemi le DivX dont le rendu visuel est d'ailleurs similaire au WMV. Autrement dit, la qualité DVD est atteinte à des débits compris entre 1 et 2 Mbits/s à résolution 640 X 480 (et non à 500 kbps à cette résolution, comme Microsoft aime à le balancer), la qualité proche du DVD à 750 kbps à résolution 720 X 576 et la qualité VHS en VBR à environ 400 kbps à 320 X 240 (et non à 225 kbps, comme aime à le crier Microsoft).

Le WMV 9e version est de nos jours très répandu sur Internet, notamment lors de la production d'extraits vidéo ou encore dans le monde très controversé de la vidéo à la demande (VoD). Controversé en ce sens que le WMV et son copain audio le WMA sot protégeables contre la copie via des verrous numériques difficiles à faire sauter, verrous dont la VoD se sert à cœur joie. Ces protections malvenues règnent également dans les disques Blu-Ray au sein desquels WMV9 jongle merveilleusement avec la HD et change de nom à l'occasion pour devenir VC-1. Comme nous y sommes, rares sont les platines de salon DVD qui savent décoder les WMV. Certains baladeurs vidéo et quelques smartphones récents sont en mesure de lire du WMV, mais seulement la version 9 et le plus souvent en résolution maximale de 320 X 240.

Question container, le WMV est habituellement encapsulé en ASF, auquel cas l'audio qui l'accompagne est du WMA. Lorsqu'il est encapsulé en AVI, tout format audio peut faire l'affaire, mais l'Ogg Vorbis pose des problèmes de synchronisation et l'AAC ne marche que très rarement, voire pas du tout. Encapsulé dans un container particulier sur les disques Blu-Ray, l'audio est du DTS, du PCM ou de l'AC3, rarement du WMA Pro. Mais ici, le WMV9 change profondément de structure et risque fort de ne pas être lu par du dispositif décodant pourtant correctement du WMV « normal ».

  1. Le H.264

Fruit d'une longue et mûre évolution, le MPEG IV Part 10, autrement appelé MPEG IV/AVC, plus couramment connu sous le nom de H.264, est le codec vidéo le plus abouti à l'heure actuelle. Il restitue la meilleure qualité visuelle, surtout en HD, ce qui fait de lui un concurrent sérieux du WMV et du DivX. Ses licences d'exploitation étant plus souples que celles des deux codecs précités, le H.264 se retrouve dans divers domaines. La norme 3GP des vidéos sur mobile, le container FLV des vidéos sur YouTube, le container DivX 7, et surtout les caméscopes HD (usant du format particulier AVCHD), utilisent de plus en plus au sein de leurs codecs soit du H.264 pur, soit une variante de celui-ci. Outre les containers ci-haut cités, l'AVI ou le Matroska (un container sous licence libre très performant, pouvant tout gober sans problème, d'extension .mkv) peuvent également accueillir du H.264. Suite à d'obscures raisons, le seul format audio qui ne s'associe pas avec le MPEG IV/AVC est le WMA.

H.264 a beau être performant en matière de qualité de résultat final, il n'en demeure pas moins qu'il s'avère assez lent à l'encodage. En effet, les algorithmes retenus dans la norme MPEG IV Part 10 poussent très loin les calculs de compression en vue de réduire la pixellisation. La complexité est accrue lorsqu'un autre format lui-même gourmand en ressources processeur, comme l'AAC, accompagne la vidéo.

  1. Le VP6

Codec peu connu, le VP6 est pourtant l'un des plus utilisés en 2009. En effet, au moins 80% des services de partage de vidéo comme YouTube emploie ses algorithmes issus de la société On2, tout aussi méconnue. L'on se sert fréquemment du VP6 en basse résolution, voire à moins de 25 images/seconde. La qualité n'est certes pas de la partie, mais elle rivalise sérieusement avec les autres codecs concurrents à débit équivalent, celui-ci tournant autour de 250 kbps. L'audio compagnon du VP6 est le plus souvent le MP3, mais le WAV dans la plupart de ses variantes (PCM, ADPCM), ainsi que récemment l'AAC, peuvent aussi faire l'affaire. Le tout est encapsulé au format .flv, propriété de Macromedia. Comme dit supra, ce container peut parfaitement supporter un autre codec vidéo comme le H.264, notamment au sein des vidéos estampillées HD dans YouTube.

Depuis 2008, le codec VP6 s'est amélioré pour devenir le VP7. Néanmoins, la grande majorité des vidéos en FLV restent encore encodées en VP6. Certains modèles de lecteurs DVD ou Blu-Ray lisent sans souci le format FLV, qu'il soit encodé en VP6 ou en VP7, mais sont susceptibles de ne pas reconnaître du FLV contenant des vidéos enregistrées à l'aide du H.264. Il est également à retenir que le FLV supporte sans problème le sous-titrage, moyennant bricolages.

  1. Le 3GP

Ce format vidéo est le pur produit d'un consortium de géants du mobile (Nokia et compagnie), format destiné à la visualisation des clips et autres séquences filmées sur téléphone portable. Même sur écran de mobile, la qualité des images est médiocre. Normal avec les débits proposés, rarement supérieurs à 100 kbps pour la vidéo, ce qui est trop bas. Par-dessus le marché, les images paraissent souvent saccadées, leur nombre étant généralement en-dessous de 25 par seconde. Quant à l'audio accompagnant ce codec, l'AMR-WB (le format des fichiers enregistrés vocalement par les dictaphones des téléphones qui possèdent cette fonction), pas fameux non plus en fait de qualité, sonorise la majorité des vidéos 3GP. N'ayant pas testé le 3GP à des débits supérieurs ou avec d'autres codecs audio, je ne tire aucune conclusion pour ce qui est de la qualité globale du codec vidéo. Ce format, lui-même container, est capable d'encapsuler l'AAC, mais cela risque de poser de problèmes de compatibilité, attendu que les téléphones supportant ce codec, même en 2009, ne foisonnent guère. Quoi qu'il en soit, je ne connais pas de platine de salon qui lise le container 3GP.

samedi 30 mai 2009

XRECODE en un clin d’œil

XRECODE en un clin d'œil

En furetant cette semaine dans l'actualité hi-Tech, le dieu Hasard a bien voulu que je remarque la présence d'un nouveau venu dans le monde surchargé de la conversion audio. XRECODE, qu'il s'appelle, m'a attiré de par la petite taille de son fichier d'installation zippé (4 Mo) et de par la quantité impressionnante de formats supportés, en import comme en export. Ce logiciel est même en mesure d'extraire l'audio d'une vidéo. Et là encore, les formats supportés couvrent quasiment tous les codecs actuels. Le tout pour pas un rond ! Génial outil, mais souffrant de quelques imperfections, comme on le verra.

Au premier usage de XRECODE, j'ai été surpris de constater qu'il me demandait un composant Visual Basic à télécharger à partir du site de Microsoft (gentils qu'ils sont, les développeurs ont donné le lien direct) et à installer. Ce qui s'est opéré rapidement, le fichier ne pesant qu'environ 1,8 Mo. Je parie que les ordis mis régulièrement à jour ne posent pas ce type de problème (la dernière fois que j'ai mis à jour mon XP SP2 date de… euh…).

Une fois ce petit impédimenta franchi, l'interface assez rudimentaire s'offre à mes yeux. Chose rare dans l'arène des logiciels de ce genre, il est proposé le choix à la volée de la langue d'interface d'un seul clic. La conversion des fichiers s'effectue par glisser-déposer ou en choisissant le dossier contenant ces fichiers. La touche CTRL aide à sélectionner plusieurs éléments à la fois. Le répertoire par défaut où sont stockés les sons convertis est le répertoire du fichier source. Il est possible de demander à XRECODE d'effacer le ou les fichier(s) d'origine, mais il s'agit d'une suppression temporaire, le ou les fichier(s) en question allant à la corbeille. Sage précaution, mais fastidieuse à la longue pour l'utilisateur désirant se débarrasser une bonne fois pour toutes de ces encombrants fichiers sources. Enfin, XRECODE peut signaler une erreur dans le processus de conversion ou la fin de celle-ci au moyen d'un son que vous prédéfinirez, lequel son devra être au format WAV ou MP3.

Les options avancées de XRECODE s'avèrent fort intéressantes. Je ne connais pas par exemple de logiciels gratuits capables de convertir un même fichier source en neuf formats différents en une seule fois ! Par ailleurs, notre convertisseur semble jongler avec les capacités des processeurs multi-cœurs, la vitesse d'encodage étant, ma foi, très rapide, surtout en WAV et en WMA avec mon antique Dual Core Pentium D à 3 GHz. Autres fonctions utiles : la possibilité de découper automatiquement un fichier en vertu des secondes de silence (paramétrables). On peut même imposer la découpe uniquement des morceaux sources de durée minimale de x secondes, voire insérer un silence à la fin d'une chanson. Le must est atteint dans l'outil ReplayGain qui marche ici pour tous les formats audio et ce, de manière « physique », c'est-à-dire en modifiant le volume réel du fichier et pas seulement en incorporant une ou plusieurs valeurs de correction qu'un lecteur compatible est censé interpréter. Moins pratiques, l'option de modification de tempo et de la fréquence d'échantillonnage, ainsi que la conversion en mono, intéresseront les gens les plus pointilleux.

La conversion est plus ou moins finement ajustable selon les formats audio. Le MP3 dispose de l'encodeur LAME 3.98 de 2008 qui délivre de meilleurs résultats que ses prédécesseurs. L'utilisateur, en mode VBR, a le choix entre le modèle psycho-acoustique ancien (old) ou actuel (new). Les modes CBR et ABR, ainsi que les ajustements stéréo (joint-stereo et consorts) sont également supportés. Le WMA est supporté en CBR comme en VBR, dans toutes ses variantes, sauf la variante vocale (WMA Voice). Selon toute évidence, le nombre de paliers VBR est exagéré. Ainsi, le palier VBR 20 proposé n'existe pas en WMA. À l'encodage, il est automatiquement remplacé par VBR 25. Pareillement, VBR 30 et 40 sont assimilés à VBR 50 ; VBR 60 et 70 sont automatiquement considérés comme VBR 75 ; VBR 80 produit du VBR 90. Le format OGG Vorbis, lui, peut être affiné en VBR (les fameux niveaux de qualité) comme en ABR. Malheureusement en VBR, il n'est pas possible de choisir des paliers décimaux de qualité (comme 7.3), chose que certains encodeurs proposent, à l'instar de Sqrsoft Batch Encoder. Pour ce qui est de l'AAC, ses paramétrages, en plus d'être abscons, s'avèrent incomplets, du moment que toutes les améliorations de ce format (comme l'HE-AAC et ses variantes) ne sont pas prises en charge. Les formats FLAC, APE et WAVPACK, tous sans perte, disposent d'une gamme presque complète de réglages. En revanche, l'ALAC d'Apple, lossless également, n'est pas ajustable. De même, chose inattendue, le WAV.

Les bugs

XRECODE comporte de nombreux dysfonctionnements dus assurément à sa jeunesse et au développement pas encore très poussé de ses fonctions (à moins qu'il y ait en plus des problèmes de licence).

Le bug majeur qui a le plus retenu mon attention est le refus catégorique de convertir certains types de fichiers monophoniques dont la fréquence d'échantillonnage est inférieure à 44100 Hz. Les fichiers audio au format WAV ADPCM, notamment issus des baladeurs numériques dans leur fonction de dictaphone, refusent carrément d'être encodés en tous formats, sauf en MP3, en WMA et en ALAC. En MP3, avec ces types de fichiers, les débits choisis par l'utilisateur sont respectés, mais la fréquence d'échantillonnage et le canal mono sont ceux du fichier d'origine, même si l'utilisateur exige la stéréo ou une fréquence supérieure. En WMA, avec ces types de fichiers, quels que soient les paramètres choisis, XRECODE crée après conversion invariablement un fichier CBR de bitrate adapté à la fréquence d'échantillonnage source (ex : 16 ou 20 kbps si la fréquence d'échantillonnage est de 22050 Hz), monophonique et de fréquence d'échantillonnage égale à celle du fichier source.

En parlant justement du WMA, l'encodage en ce format comporte aussi de nombreuses anomalies. Hormis ce que j'ai écrit supra quant aux paliers VBR, XRECODE dispose d'une mauvaise gestion du WMA Pro. En effet, en mode CBR, surtout pour des débits binaires inférieurs à 128 kbps (ce qui suppose que la version 10 de ce codec a été installée), l'encodage ralentit terriblement. De plus, le bitrate n'excède pas 256 kbps, même si 320 kbps est demandé ; la résolution en bits est imposée à 16 et la fréquence d'échantillonnage à 44100 Hz. En mode VBR, quel que soit le palier proposé, les fichiers sont convertis en WMA Lossless à 16 bits, 44100 Hz, quand bien même la case permettant l'encodage en mode lossless ne serait pas cochée !

Conclusion

XRECODE est un précieux outil gratuit de conversion assez rapide et riche en options poussées. L'utilisateur lambda sera satisfait s'il veut obtenir les résultats les plus courants. Cependant, le bidouilleur confirmé restera quelque peu sur sa soif, vu les bugs et insuffisances de certains paramétrages au niveau de certains codecs (comme le WAV ou le WMA).

mercredi 29 avril 2009

PAS DE DOUTE : LE WMA VBR N’ÉCONOMISE QUE RAREMENT DE L’ESPACE

PAS DE DOUTE : LE WMA VBR N'ÉCONOMISE QUE RAREMENT DE L'ESPACE

Ce topic est la suite logique de ceci.

N.B. : Il s'agit ici de la version standard du format, version 9.2.

Je l'ai déjà démontré, avec un peu d'astuces, mais également dans bien des cas ordinaires, le WMA en mode VBR n'est pas un si bon économiseur d'espace que Microsoft, son concepteur, veut bien le faire croire. Voici à présent une autre preuve de ce que j'avance, me basant sur la comparaison des fréquences de coupure des modes CBR et VBR du format WMA.

Le comparatif proprement dit

Une consultation de cette page vous donnera une vue mieux structurée et plus compréhensible de ce qui suit. Ne manquez pas non plus de cliquer ici et pour d'autres détails complémentaires.

  1. VBR 10

Ce mode VBR, excellent dans l'encodage de la voix parlée, mais pas fameux dans l'archivage des chansons, coupe les fréquences à environ 12050 Hz. Ce lowpass est partagé par deux débits binaires en mode CBR : 48 et 64 kbps. Il serait tentant de croire que VBR 10, qui crée des fichiers de taille moyenne de 50 kbps, s'avère intéressant par rapport au CBR à 64 kbps. Je vous déconseille malheureusement d'encoder de la musique en VBR 10, vu la qualité, je l'ai dit, vraiment médiocre du résultat final. Le CBR à 64 kbps réalise un boulot nettement meilleur (bien que pas optimal). En revanche, VBR 10 peut être comparé au CBR à 48 kbps du point de vue qualitatif. Mais il est assez rare de trouver en ce mode VBR des sons dont le débit moyen est inférieur à 48 kbps. Le gain de place est par conséquent très faible. Le WMA est l'un des rares formats audio, le seul qui sait, à générer un lowpass identique pour deux vitesses de transmission assez éloignées (48 et 64 kbps), mais de qualité très différente.

  1. VBR 25

Sa fréquence de coupure est de 13 kHz, légèrement inférieure au CBR à 80 kbps dont le lowpass est de 13,2 kHz. Le bitrate moyen du VBR 25 se situe aux alentours de 65 kbps, avec des pics à 85 kbps et des chutes à 40. L'économie d'espace n'est pas spectaculaire par rapport au CBR à 80 kbps, mais c'est mieux que le VBR 10 face au CBR à 48 kbps. Toutefois, quant à la qualité, je préfère au VBR 25 le CBR à 64 kbps qui, certes, souffre d'un lowpass plus marqué (12 kHz), mais, paradoxalement, assure une meilleure conservation des aigues (vraiment bizarre, le WMA !). Et du CBR à 80 kbps sonne mieux que du CBR à 64 kbps, quoi de plus logique. Donc, en termes de ratio qualité-taille de fichier, VBR 25 est un échec, plusieurs fois décrié par les testeurs et l'une des causes de discrédit du WMA (notamment dans sa version 9.1, sérieusement buggué dans l'encodage VBR, tous modes confondus).

  1. VBR 50

Ici, la fréquence de coupure est similaire au mode CBR à 80 kbps : environ 13,2 kHz. Un saut infime comparé au VBR 25, mais un gain drastique de qualité. Le bitrate du VBR 50 varie beaucoup selon les morceaux, pouvant être aussi bas que 45 kbps et dépasser 100 kbps. Les meilleurs gains se remarquent dans la musique classique et les moins bons dans le rock et dans la musique électronique (techno et autres dances). En général, les débits tournent autour de 75-85 kbps, ce qui fait que par rapport au CBR à 80 kbps, le gain d'espace est anecdotique.

  1. VBR 75

Bien qu'il partage le même lowpass que le WMA CBR à 96 kbps, le VBR 75 a meilleure qualité sonore que celui-là. Question sauvegarde de la taille mémoire, notre mode VBR n'est nullement un modèle : le bitrate moyen se situe aux alentours de 125 kbps. Il est peu fréquent de descendre en-dessous de 100 kbps, mais assez courant d'atteindre 135 kbps. Ainsi, à fréquence de coupure équivalente, le CBR à 96 kbps économise clairement plus d'espace que VBR 75.

  1. VBR 90

Coupant la majorité des fréquences au-delà de 18760 Hz, VBR 90 partage exactement le même lowpass que CBR à 160 kbps et presque le même lowpass que CBR à 192 kbps qui, lui, supprime la majorité des signaux audio de fréquences supérieures à 18770 Hz. En moyenne, ce mode VBR produit des fichiers à débits compris entre 180 et 200 kbps, avec des pics à 220 kbps et des baisses à 130. Comparativement au CBR à 192 kbps, l'économie de place n'est pas si grande. Elle n'existe quasiment plus en comparaison avec le CBR à 160 kbps. Notez par ailleurs qu'en WMA VBR, lorsque la vitesse de transmission moyenne dépasse 192 kbps, certains baladeurs et autoradios lisent par saccades, voire ne lisent pas du tout le fichier concerné. Détail intéressant : encodé à 48 kHz d'échantillonnage, VBR 90 augmente son lowpass à environ 20 kHz, avec un bitrate moyen à peine plus élevé que ce que produit un encodage à 44 kHz. Une augmentation de qualité non négligeable, je dois le reconnaître.

  1. VBR 98

Les ingénieurs à Billou n'ont sûrement pas conçu ce mode en ayant dans leur caboche l'intention d'économiser de l'espace mémoire. Ils escomptaient plutôt produire des fichiers audio proche du sans faute en matière de qualité, tout en conservant un poids raisonnable. Et le but est réellement atteint (même si le MP3 fait mieux à des bitrates plus bas). La fréquence de coupure (20050 Hz) est celle du CBR à 256 kbps et proche du lowpass du CBR à 320 kbps (20060 Hz). Eu égard au CBR à 256 kbps, aucune économie d'espace n'est décelée, VBR 98 générant la plupart du temps un bitrate moyen voisin de 320 kbps, rarement de 270-300 kbps. Par rapport au CBR à 320 kbps, on ne gagne que des miettes en termes de place, et encore, car les vitesses de transmission peuvent culminer à 360 kbps au sein de certaines chansons assez « compliquées ». Bref, pour raisons de gain de place, mieux vaut user du CBR à 256 ou à 320 kbps que du WMA VBR 98.

Conclusion : ouste, le VBR ?

Si votre vœu est le gain d'espace, le mode VBR n'est pas le candidat valable qui satisfasse vos désirs numériques, en tout cas pas dans l'utilisation du format WMA standard. À fréquence de coupure équivalente en mode CBR, le mode VBR a généralement tendance à augmenter le débit, histoire de glaner quelques infos supplémentaires dans le souci du maintien de la qualité. Il ne baisse la vitesse de transmission que lorsqu'il estime que tel segment d'un son est moins « riche » et/ou moins « dense » que tel autre. Et fait très souvent, il bien son travail ; c'est la raison pour laquelle les utilisateurs avertis préfèrent se servir du mode VBR : son respect des détails est plus pointu que celui du mode CBR. Cela doit néanmoins être nuancé. À des débits supérieurs ou égaux à 128 kbps, mon oreille d'amateur ne distingue plus entre un fichier encodé en CBR et le même fichier encodé en VBR. À partir de ce bitrate, j'ai comme l'impression que le CBR est suffisamment mûr dans son modèle psycho-acoustique et peut être utilisé sans crainte de qualité ni… de perte de mémoire.

WMA Imperator.

samedi 18 avril 2009

BITRATES LORS DES SILENCES STÉRÉO EN WMA VBR 1-PAS

BITRATES LORS DES SILENCES STÉRÉO EN WMA VBR 1-PASS

WMA STANDARD v. 9.2 

Niveau de qualité VBR 

Bitrate moyen (en kbps) 

Bitrate maximal (en kbps) 

Bitrate du fichier non compressé

Q10 (44 kHz) 16 bits 

26.2 

26.6 

1411.2

Q25 (44 kHz) 16 bits 

34.9 

35.0 

1411.2

Q50 (44 kHz) 16 bits 

34.9 

35.0 

1411.2

Q75 (44 Khz) 16 bits 

51.9 

51.9 

1411.2

Q90 (44 kHz) 16 bits 

103.1 

103.1 

1411.2

Q90 (48 kHz) 16 bits 

103.4 

103.4 

1536

Q98 (44 kHz) 16 bits 

137.3 

137.3 

1411.2

Q98 (48 kHz) 16 bits 

137.4 

137.4 

1536

WMA PROFESSIONAL v. 10

Q10 (44 kHz) 24 bits 

12.7 

13.6 

2116.8

Q10 (48 kHz) 24 bits  

13.1 

17.6 

2304

Q25 (44 kHz) 24 bits 

25.4 

1590.2 

2116.8

Q25 (48 kHz) 24 bits 

19.7 

25.5 

2304

Q50 (44 kHz) 24 bits 

25.4 

1590.2 

2116.8

Q50 (48 kHz) 24 bits 

26.2 

33.4 

2304

Q75 (44 kHz) 24 bits

38.0 

1590.2 

2116.8

Q75 (48 kHz) 24 bits 

39.3 

50.3 

2304

Q75 (88 kHz) 24 bits 

40.4 

69.2 

4224

Q75 (96 kHz) 24 bits 

39.3 

50.3 

4608

Q90 (44 kHz) 24 bits 

50.7 

1590.2 

2116.8

Q90 (48 kHz) 24 bits 

52.4 

66.2 

2304

Q90 (88 kHz) 24 bits 

53.9 

92.2 

4224

Q90 (96 kHz) 24 bits

52.4 

66.2 

4608

Q98 (44 kHz) 24 bits 

76.1 

1590.2 

2116.8

Q98 (48 kHz) 24 bits 

78.7 

99.2 

2304

Q98 (88 kHz) 24 bits 

80.8 

137.2 

4224

Q98 (96 kHz) 24 bits 

78.7 

99.2 

4608

WMA LOSSLESS 9.2 

Q100 (44 kHz) 16 bits 

221.9 

221.9 

1411.2

Q100 (44 kHz) 24 bits

846.5 

846.5 

2116.8

Q100 (48 kHz) 24 bits 

876.4 

876.4 

2304

Q100 (88 kHz) 24 bits 

1053.7 

1053.7 

4224

Q100 (96 kHz) 24 bits 

1076.6 

1076.6 

4608

Commentaires d'ensemble

Le silence traité ici a été généré par Audacity. Il s'agit d'un fichier de 30 secondes échantillonné à 44 kHz, 16 bits, au format WAV Stéréo.

Pour ce qui est du WMA 9.2 (WMA Standard), il est aisé de constater que l'algorithme de compression ne crée pas de fluctuations sensibles de débit au sein des fichiers convertis en un mode donné. Ledit débit va de 26 à 137 kbps selon le mode VBR choisi.

En ce qui concerne le WMA Professional, un codec disposant d'un modèle psycho-acoustique plus élaboré, je suis allé de surprises en surprises. La vitesse de transmission peut descendre à 13 kbps et ne dépasse pas en moyenne 77 kbps, même en VBR Q98 échantillonné à 96 kHz ! Reconnaissons-le, il s'agit là d'un exploit technique… Cependant, les fluctuations de débits sont assez marquées au sein d'un fichier. Elles deviennent même carrément démentielles lorsque le fichier encodé est échantillonné à 44 kHz à partir de VBR Q25. Le bitrate atteint 1590 kbps avec une moyenne parfois aussi basse que 25 kbps, mais jamais supérieure à 77 kbps, comme dit supra !! Je me creuse les méninges, cherchant à savoir ce qui peut créer un dandinement de bitrates dans l'encodage d'un silence, ce dernier étant supposé exempt de données sonores. Autre détail intéressant : les fichiers encodés en un mode VBR donné, de fréquence d'échantillonnage de 48 kHz et de 96 kHz, ont une vitesse de transmission moyenne identique ! La raison de cet étrange comportement m'échappe. Elle n'est sûrement pas due au fait que ces deux fréquences d'échantillonnage ont un rapport exact de 2 sur 1. En effet, ce phénomène ne se produit pas avec les fréquences de 44 kHz et de 88 kHz…

Quant au WMA Lossless, le débit moyen est grandement fonction de la résolution en bits et de la fréquence d'échantillonnage. À 44 kHz de fréquence et à 16 bits d'échantillonnage, le taux de compression est élevé. Toutefois, à 24 bits par échantillon, fréquence de 44 ou de 48 kHz, franchement, le gain de place n'est pas extraordinaire pour un silence, comparé à un fichier non compressé. De même pour les fréquences de 88 et de 96 kHz à 24 bits par échantillon, mais le ratio de compression est un peu plus satisfaisant. Est-ce un bug dans l'algorithme lossless du WMA 9.2 ? Ou plutôt une mauvaise gestion des imperfections causées peut-être par l'interpolation fréquentielle opérée par l'algorithme en question lors du passage d'une résolution 16 bits (fichier originel) à une résolution 24 bits ? Aux ingénieurs à Billou de répondre…

mercredi 25 mars 2009

LA NORMALISATION AUDIO POUR LES NULS

LA NORMALISATION AUDIO POUR LES NULS

Quand vous écoutez de la musique, quoi de plus irritant que de manipuler à chaque chanson qui passe le volume sonore. Si vous disposez d'un ordi, plusieurs outils vous permettront qu'au gré des morceaux qui jouent, l'ambiance soit uniforme d'une piste à l'autre. C'est ce qu'on appelle la normalisation. Trois principaux moyens sont utilisés pour obtenir plus ou moins efficacement ce résultat.

  1. Normalisation par détection du volume maximal

Le lecteur ou le logiciel de traitement audio analyse le son de la piste et détecte l'amplitude la plus forte. Si elle est inférieure à la valeur maximale d'amplification imposée, le signal sera automatiquement amplifié du nombre de décibel(s) nécessaire pour atteindre cette valeur et ce, sur tous les échantillons de la piste. Si l'amplitude la plus forte égale ou dépasse la valeur maximale d'amplification, rien n'est fait.

Cette méthode n'a qu'un unique avantage : éviter la saturation. Les inconvénients sont cependant nombreux.

Cette forme de normalisation ne peut s'appliquer en temps réel, car elle suppose que la valeur maximale du signal soit connue d'avance, ce qui n'est guère le cas avec des sources audio en direct (lecture ou enregistrement). Par ailleurs, ce type de normalisation s'avère totalement inefficace lorsque le son global de la chanson est peu élevé, mais ponctué de petites crêtes qui peuvent être des parasites. Si ces crêtes atteignent ou dépassent la valeur maximale d'amplification, rien ne se produira et le son global paraîtra toujours réduit, surtout si lesdites crêtes ne durent que quelques fractions de seconde.

La normalisation par détection du volume maximal n'est quasiment jamais utilisée par les logiciels de lecture. Toutefois, pas mal de logiciels de traitement audio, voire de gravure de CD audio, proposent cette option, à l'instar d'Audacity et de Nero.

  1. Normalisation par détection du volume moyen

Ici, le lecteur ou le logiciel de traitement audio analyse le son de la piste et détecte non pas l'amplitude la plus forte, mais plutôt l'amplitude moyenne du signal. Ensuite, le volume de la chanson est, selon le cas, automatiquement rehaussé ou diminué du nombre de décibel(s) nécessaire pour atteindre la valeur imposée.

Cette méthode, parfois appelée RMS, a l'avantage d'équilibrer assez précisément le son d'une piste à une autre, même s'il y a des pics prononcés de volume.

Nonobstant, la normalisation par détection du volume moyen, tout comme la méthode précédente, ne peut s'appliquer en temps réel et ne convient pas ipso facto aux sources audio en direct. De plus, si la valeur imposée à atteindre est inadaptée, de la saturation peut se produire. Il est recommandé d'user de valeurs de normalisation assez réduites pour contourner autant que faire se peut ce problème.

Quantité de logiciels de lecture usent de ce mode de normalisation, mais chacun d'eux se débrouille mieux ou moins bien que l'autre. À mon sens, l'outil ReplayGain de Winamp s'en sort le mieux, car disposant d'astucieux algorithmes atténuant fortement la saturation. Quant aux outils de gravure de CD audio, il faut être prudent lors de l'utilisation du RMS et éviter, comme dit supra, des valeurs élevées de réglage.

  1. Normalisation par compression/expansion sonore

Le lecteur ou le logiciel de traitement audio procède à l'analyse du signal sonore, laquelle analyse conduira à augmenter ou à diminuer le volume de certaines zones dudit signal en fonction de tout un tas de paramètres assez complexes inhérents au signal même. Au final, les sons forts seront atténués, les sons faibles rehaussés et ce, en atteignant des valeurs multiples préétablies.

Il s'agit de la meilleure méthode de normalisation si les valeurs de traitement sonore sont bien fixées, auquel cas le volume sonore devient très constant et dépourvu de saturation, quelle qu'en soit la source et quel que soit le type de signal, en temps réel ou pas.

Néanmoins, ce genre de normalisation demande une certaine puissance de calcul du processeur. Du reste, si les valeurs de traitement sont mal fixées, le son peu être totalement dénaturé par des phénomènes indésirables comme la saturation ou l'amplification de certains artefacts (comme la métallisation du son). Enfin, sur des passages intentionnellement calmes d'une œuvre, la normalisation par compression/expansion peut saper le plaisir d'écoute en les amplifiant de manière inopportune et même, dans certaines situations, sérieusement mettre à mal un logiciel d'enchaînement audio. Vous comprendrez que ce type de normalisation devra être l'apanage des utilisateurs avertis et des mélomanes confirmés.

Certains logiciels de lecture comme Winamp disposent de plug-ins qui assurent la compression/expansion en temps réel. Celui qui se démarque de tous les autres est, à mon humble avis, Stereo Tool. Finement paramétré, il réserve d'agréables surprises… Pour ce qui est des logiciels de traitement audio, quasiment tous gèrent ce mode de normalisation, de manière native ou après ajout d'un module VST.

mardi 10 février 2009

Usages préférentiels des modes CBR et VBR en une passe pour le WMA Standard


 

Usages préférentiels des modes CBR et VBR en une passe pour le WMA Standard

  1. Quand faut-il user du mode CBR ?
    1. En cas de streaming

Les serveurs de diffusion en continu ont coutume de diffuser en CBR, même si la source est codée en VBR. En effet, le mode CBR garantit un débit quasi-fixe, une mémoire tampon non fluctuante et une sollicitation mineure du réseau (si la connexion est adaptée au débit choisi).

  1. Compatibilité totale (ou presque)

Tout baladeur qui sait décoder les WMA n'aura aucun mal à lire des fichiers encodés en CBR dans ce format. Toutefois, certains modèles et certaines marques de baladeurs ont des difficultés (voire sont dans l'impossibilité) à lire des WMA enregistrés à un bitrate supérieur à 192 kbps.

  1. Sauvegarde de l'autonomie de la pile ou de la batterie du baladeur

Les morceaux encodés en CBR sont plus faciles à lire que ceux encodés en VBR. La puce du baladeur aura ainsi moins de puissance de calcul à fournir. Moins de circuits seront sollicités et plus d'énergie électrique sera sauvegardée. Notez toutefois qu'à débit équivalent, le WMA est plus gourmand en calculs que le MP3.

  1. Dans quelques rares cas, économie de l'espace mémoire

Il peut exceptionnellement arriver qu'en mode VBR, un WMA soit de taille supérieure au même fichier encodé en mode CBR de bitrate moyen équivalent. Ex : en mode VBR 50, l'équivalent CBR correspond grossièrement au débit de 80 kbps. Si la musique est complexe ou si d'importantes disparités existent entre les canaux audio, la vitesse de transmission moyenne du fichier peut atteindre 116 kbps.

  1. Dans d'autres rares cas, préservation de la qualité

Il est parfois remarqué que face à de courts extraits de quelques secondes de sons particulièrement complexes (notamment des extraits proposés lors des tests des codecs), le modèle psychoacoustique du WMA VBR standard à bas bitrate dégrade légèrement la qualité (il faut de l'excellent matériel hi-fi pour s'en rendre compte). Il s'agit néanmoins des cas quasi-introuvables dans le quotidien.

  1. Quand faut-il éviter le mode CBR ?
    1. Si vous visez la qualité du fichier final

Les modèles mathématiques du WMA VBR ont été conçus pour préserver au sein du fichier un niveau de qualité spécifié. À bitrate équivalent en mode CBR, la musique est rendue avec plus de détails et moins de distorsions. Ex : une chanson encodée à 80 kbps en mode CBR sonne moins bien que la même chanson encodée en VBR 50 à ce débit (en moyenne). Notez toutefois qu'à partir de 128 kbps et au-delà, le mode CBR encode avec suffisamment de qualité pour rivaliser avec un fichier encodé en VBR de bitrate moyen équivalent.

  1. Si vous voulez préserver la taille du fichier final

Spécialement à bas débit, encoder en VBR permet souvent de gagner quelques kilooctets. Bien entendu, pour le remarquer, il convient d'avoir à l'esprit la notion de qualité vue supra. Ex : en mode VBR 50, un fichier encodé à débit moyen de 70 kbps est nécessairement plus petit que le même fichier encodé à 80 kbps, à qualité égale, voire supérieure.

  1. Quand faut-il user du mode VBR ?

Voir point B. précédent.

  1. Quand faut-il éviter le mode VBR ?
    1. En cas de streaming

La diffusion en ligne a horreur des contenus dont le débit danse la gigue (et dont le WMA VBR est champion). En effet, au sein d'une même chanson, le bitrate peut aller en une fraction de seconde de 32 à 112 kbps sans transitions marquées ! Il est vrai que la norme ASF (que tout fichier de la nébuleuse Windows Media respecte) prévoit dans la structure même du fichier d'astucieux mécanismes en vue de pallier les déconvenues dues à cette bougeotte de bits (les fameux ASF Leaky Bucket qui gèrent entre autres les fuites de mémoire tampon). Mais seuls certains serveurs doués en tirent parti et tous échouent quand les fluctuations de débit s'avèrent trop importantes, ce qui se traduit généralement par des saccades lors de la lecture, voire par des silences inopinés et prolongés.

  1. Si on est soucieux de la compatibilité

En réalité, tous les lecteurs et logiciels qui lisent les WMA savent depuis au moins 2004 lire parfaitement les morceaux enregistrés en mode VBR. Attention cependant ! Ce n'est pas tous les baladeurs qui sont en mesure de décoder correctement des WMA dont le débit dépasse 192 kbps, notamment des WMA enregistrés en VBR 90 ou en VBR 98. De tels fichiers, à l'écoute, tronquent désagréablement des portions d'audio allant parfois jusqu'à plusieurs secondes.

  1. En cas de sauvegarde de l'autonomie

La structure de décodage du WMA est assez complexe. Quant bien même, selon toute vraisemblance, le même algorithme de décodage serait utilisé en CBR comme en VBR, la lecture des fichiers enregistrés en ce dernier mode consomme plus de ressources. Sûrement les va-et-vient incessants dans les tables de Huffmann et dans les mécanismes d'allocation de bits. Plus le débit moyen d'une chanson est élevé, plus les calculs se densifient et plus l'autonomie chute, attendu que plus la puce sollicite ses circuits en électricité.

  1. Dans de rares cas, économie de l'espace mémoire

Voir point A.4

  1. En conclusion

L'utilisateur lambda qui ne se soucie pas trop du rendu sonore ou qui dispose d'un baladeur de forte capacité mémoire peut, selon le cas, soit se tourner vers le mode CBR à bas débit, soit se tourner vers le mode CBR à débit supérieur ou égal à 128 kbps. Par ailleurs, il préservera l'autonomie de son appareil et aura la certitude que sa musique sera écoutée dans tous les baladeurs compatibles, pour peu que le débit ne dépasse pas 192 kbps.

L'utilisateur averti dont le seul souci est la qualité finale de ses chansons se tournera en revanche vers le mode VBR. Toutefois, il devra veiller à ne pas utiliser de paliers de qualité supérieurs à VBR 75, à moins que son baladeur ou son équipement audio ne le permette.