Le signal vidéo numérique

Cet article présente les normes actuelles permettant de manipuler des fichiers vidéo numériques. Les principales techniques de compression sont également présentées.

Article lu fois.

L'auteur

Daniel Jean

L'article

Publié le 12 juin 2005 - Mis à jour le 22 janvier 2020

Version PDF Version hors-ligne

ePub, Azw et Mobi

Liens sociaux

I. Introduction▲

Le principe de la numérisation d'une image vidéo est assez simple. La première étape consiste à sous-diviser chaque image vidéo selon une résolution donnée (normalement 720 x 486 pixels pour une image vidéo normale) et à associer une valeur numérique à chacun des éléments qui forment la couleur de ce pixel (YUV ou RGB) en utilisant une table de conversion de couleurs (normalement 24 bits par pixels pour 16 millions de couleurs possibles en chaque point). Ce procédé de conversion doit se faire très rapidement étant donné qu'une image vidéo traditionnelle contient plusieurs milliers de pixels et que la vidéo analogique NTSC défile à près de 30 images par seconde (25 images de 720 x 576 pixels par seconde en PAL) ! Heureusement, il existe actuellement sur le marché plusieurs puces permettant d'accomplir cette tâche en temps réel.

II. L'image vidéo non compressée▲

Si un signal vidéo de 720x486 pixels de résolution est numérisé en utilisant la norme YUV 4:2:2, le fichier résultant sera de 683.44 Ko par image ou 20.02 Mo/sec. C'est ce qu'on appelle le format non compressé de ratio 1:1. Ces valeurs sont calculées de la façon suivante :

720 pixels X 486 pixels X 16 bits/pixel= 699,840 octets/image ;
conversion octets/image en Koctets/image, 699,840 octets/image X 1 Ko/1024 octets= 683.44 Ko ;
conversion Koctets par image en Koctets par seconde, 683.4 Ko/image X 30 images/sec.= 20502 Ko/sec ;
conversion Koctets par seconde en Moctets par seconde, 20503.2 Ko/sec. X 1 Mo/1024 Ko = 20.02 Mo/sec.

Ces calculs sont valides pour le format NTSC. Pour le PAL, les calculs donneront environ 19.78 Mo/sec. en se basant sur la résolution 720 x 576 pixels à 25 images/sec.

III. Les limitations techniques▲

III-A. La capacité de stockage▲

Avec un débit d'environ 20 Mo/sec, la vidéo numérique non compressée exigerait donc plus de 1.2 Go d'espace disque pour capter 1 seule minute de vidéo.

III-B. La rapidité de transmission▲

L'autre problème auquel on doit actuellement faire face avec la vidéo numérique est le transfert de ces données en format numérique. Certaines technologies permettent actuellement le transfert des données vidéo numériques non compressées sauf qu'elles ne sont pas toujours facilement accessibles. Pour les technologies plus accessibles, il faut donc penser à réduire le débit des données.

IV. Les solutions pour réduire le débit▲

Le problème est donc de diminuer au maximum le nombre de bits ou d'octets utilisés pour représenter une image et, par là, de réduire le débit binaire nécessaire pour la transmettre. La première solution est de diminuer le nombre d'images par seconde, sauf qu'en dessous de 15 à 18 images par seconde notre œil commencera à capter une saccade plutôt désagréable.

La deuxième possibilité est de réduire le nombre de points de l'image par 2 ou par 4 sauf que la qualité visuelle de l'image résultante sera passablement réduite, voire inacceptable. La troisième possibilité est de coder moins d'informations de couleur, sur 2 octets(16 bits) par pixel en 64 000 couleurs, par exemple, ou encore sur un seul octet par pixel en palette de 256 couleurs. Pour les applications multimédias, cette solution est acceptable et d'ailleurs très recommandée pour les présentations multimédias, mais pas pour le montage vidéo, même amateur.

Toutes ces méthodes auront bel et bien pour effet de réduire le débit des données, mais la dégradation de l'image sera si importante que même un amateur la rejetterait. La seule vraie solution au problème de débit est apportée par la compression, aussi appelée Bit Rate Reduction (Réduction du débit binaire). Plusieurs méthodes ont été mises au point avec plus ou moins de succès.

IV-A. La compression des données▲

Tout d'abord, il est important de savoir que les techniques de compression du flux de données numériques sont principalement basées sur une constatation : une image contient énormément d'informations redondantes, redondance dont on peut distinguer deux types…

IV-A-1. La redondance spatiale▲

Lorsque des informations sont similaires ou se répètent dans des zones de l'image proches l'une de l'autre (dans une image, deux points voisins sont souvent similaires).

IV-A-2. La redondance temporelle▲

Lorsque des informations se ressemblent ou se répètent dans le temps, même si leur position dans l'image a changé (deux images successives sont souvent relativement similaires). La compression va donc consister à déterminer ces redondances et à les éliminer. La contrainte liée à la qualité de l'image nous oblige à être capables de reproduire l'image originale intacte ou, tout au moins, une image très proche de celle-ci. Cette définition nous amène à envisager deux types de techniques pour la compression.

IV-B. La compression avec perte d'information▲

Il existe différentes techniques permettant d'obtenir des facteurs de compression nettement plus élevés qu'avec les techniques réversibles. Mais, avec de telles méthodes, l'image reconstruite après décompression, bien qu'elle reste proche de l'image originale, n'est plus identique. On parlera alors de méthodes de compression irréversibles.

Cependant, même si elles induisent des pertes d'informations dans les images, en choisissant judicieusement le type d'informations qui seront perdues ou dégradées, il est néanmoins possible de reconstruire des images d'une qualité telle que l'œil humain ne pourra les distinguer des images originales. En effet, l'œil est plus sensible à certaines notions qu'à d'autres. Ainsi, une dégradation des couleurs dans une scène remplie d'objets en mouvement rapide passera inaperçue alors qu'une faible perte de qualité dans une image fixe comportant un dégradé de couleurs sera immédiatement perçue. Ces particularités de l'œil humain sont exploitées depuis le début de la vidéo.

La vidéo numérique utilise également au maximum les particularités de l'œil humain lorsqu'il s'agit de compression d'images. Nous obtenons ainsi une compression visuellement sans perte d'informations. De ces constatations sont nées plusieurs classes de méthodes de compression…

IV-B-1. Le Variable Length Coding (VLC)▲

Il se base sur la constatation que certaines combinaisons de pixels sont plus fréquentes que d'autres. Dès lors, en recensant toutes les combinaisons possibles d'un nombre donné de pixels, il est possible d'en étudier leur fréquence d'apparition dans une image. On attribue alors à chaque combinaison un code dont la longueur (nombre de bits) est d'autant plus faible que la combinaison apparaît souvent dans l'image. La première application de cette méthode est bien antérieure à la vidéo. Le code morse rejoint la même idée.

IV-B-2. Le Differential Pulse Code Modulation (DPCM)▲

Il se base sur la constatation que, dans la plupart des images, les différences entre deux pixels adjacents sont souvent faibles, les transitions franches(par exemple : un rectangle noir sur un fond blanc) étant assez rares. Il est donc envisageable, connaissant la valeur d'un pixel, de prédire la valeur de son voisin.

IV-B-3. La Discrete Cosine Transform (DCT)▲

Elle se base sur la transformation d'une représentation spatiale d'un bloc de pixels, c'est-à-dire position horizontale, verticale ainsi que l'amplitude, en une représentation sous forme mathématique différente. Cette représentation plus compacte de l'image requiert de traiter moins d'informations. En effet, cette nouvelle représentation ne se base plus sur une analyse spatiale (positions horizontale, verticale et amplitude), mais sur une analyse fréquentielle savamment calculée. Cette technique est rendue possible grâce à l'utilisation d'une variante des séries de Fourier. Celles-ci permettent de reconstruire une fonction à partir d'une somme de sinusoïdes multipliées chacune par un certain coefficient dit « de Fourier ». La DCT s'apparente à cette méthode. La DCT, en elle-même, ne comprime donc pas l'image. Elle la représente simplement sous une forme qui se prête beaucoup mieux à la compression. Il ne reste alors plus qu'à appliquer un codage intelligent des différents coefficients.

IV-C. La compression sans perte d'informations (Lossless)▲

Pour plusieurs personnes, rien ne peut rivaliser avec un original. En fait, la compression « Lossless » est supérieure à du vidéo non compressé parce que la qualité est identique et qu'en plus on sauve de l'espace disque étant donné que le signal est compressé. Le problème est qu'étant donné qu'il y a très peu de redondance dans une image vidéo, le gain n'est seulement que de 50 % en moyenne.

V. Les standards actuels de compression▲

Plusieurs standards de compression ont déjà été développés. Voici une liste non exhaustive des méthodes de compression rencontrées le plus fréquemment ainsi que leurs champs d'application.

V-A. Le JPEG (Joint Photographic Experts Group)▲

Il s'agit d'un standard international pour la compression d'images couleur fixes stockées sous forme digitale. À la base, ce standard fut conçu pour le monde de l'impression et de la photocomposition. Il accepte n'importe quelle définition, tant verticale qu'horizontale et autorise un nombre de bits par pixel compris entre 1 et 32. La technique de compression utilisée est basée sur la Discrete Cosine Transform (DCT). Cependant, conçu pour les images fixes, il ne convient pas à la compression de séquences vidéo.

V-B. Le Motion JPEG▲

Il s'agit d'une extension du JPEG qui permet de traiter des séquences d'images. En réalité, il se contente de considérer une séquence vidéo comme une succession d'images fixes, chacune d'elles compressée séparément en utilisant le standard JPEG. Puisque chaque image est compressée indépendamment des autres, le Motion JPEG permet le montage à l'image près. Tant que l'on se contente de facteurs de compression relativement faibles (de 2:1 à 4:1) il peut s'appliquer à du travail de production ou de postproduction de qualité et, optimisé, il est quasi transparent. Toutefois, lorsque le facteur de compression devient plus important (au-delà de 10:1), la dégradation des images devient telle qu'elle est aisément perceptible par l'œil humain. En outre, ces dégradations s'additionnent d'une génération à l'autre, jusqu'à devenir rapidement inacceptables.

V-C. Le MPEG (Moving Pictures Experts Group)▲

Comme nous venons de le voir, tant que l'on se contente de compresser des séquences vidéo en considérant chaque image séparément, le facteur de compression peut difficilement dépasser 4:1 si l'on souhaite conserver un niveau de qualité compatible avec un usage professionnel. Pour atteindre des facteurs de compression supérieurs, il faut se baser sur les similitudes existant entre plusieurs images successives. Cette constatation a donné naissance au standard MPEG. À l'origine, le standard MPEG prévoyait quatre niveaux (d'autres s'y sont ajoutés depuis) :

MPEG-1 : destiné aux applications multimédias ;
MPEG-2 : extension de MPEG-1 permettant d'obtenir une qualité d'image supérieure ;
MPEG-3 : destiné à la télévision haute définition. Cependant, MPEG-2 s'est révélé tellement performant qu'il a rendu inutile le développement de MPEG-3 ;
MPEG-4 : originalement destiné aux communications mobiles, sa forme originale n'a rien à voir avec le monde de la vidéo broadcast. D'autres développements futurs seront à surveiller.

Le but du MPEG-1 était de produire des images de qualité équivalente au VHS tout en parvenant à descendre à un débit binaire de l'ordre de 1.2 Mbits/seconde (1.5 Mbits/seconde en incluant le son).

Le MPEG-2 fut conçu pour traiter des séquences d'images entrelacées. Le but était de produire des images de la qualité d'un système vidéo composite avec un débit binaire de l'ordre de 4 à 8 Mbits/seconde ou des images de haute qualité avec un débit de 10 à 15 Mbits/seconde. Les domaines d'application principaux de MPEG-2 sont liés à la distribution de programmes vidéo : diffusion par satellite, télédistribution, Digital Video Disc.

Comme on peut le voir, le MPEG offre un vaste éventail de possibilités, semble flexible et permet d'atteindre une bonne qualité d'image. Dès lors, pourquoi ne pas l'utiliser tout au long d'une chaîne de production vidéo professionnelle? Les raisons sont multiples : MPEG conduit à des systèmes fortement asymétriques, le processus de compression est beaucoup plus complexe que le processus de décompression. Il faut donc une puissance de calcul de loin supérieure pour la compression que pour la décompression. Ceci ne pose pas de problème lorsqu'il s'agit de distribuer des images, car, par définition, on compresse à un seul endroit, lors de l'émission, puis l'on diffuse les images qui sont décompressées sur de multiples récepteurs. Dans le cas d'une chaîne de postproduction, il en va tout autrement, il faut pouvoir compresser et décompresser à chaque maillon de la chaîne. De plus, le système MPEG n'a pas été conçu pour faire du montage à l'image près, ce qui est un des prérequis majeurs pour faire de la postproduction. Des générations successives, entrecoupées de traitements (effets), peuvent induire une perte de qualité qui s'avérera rapidement inacceptable. MPEG n'a pas été conçu pour permettre des opérations telles que le « chroma key ».

Parallèlement aux travaux de MPEG, le secteur informatique a développé ses propres solutions pour amener la vidéo sur les écrans des micro-ordinateurs. Les possibilités d'affichage et de traitement permettaient, dès la fin des années quatre-vingt, d'afficher des images (fixes) de haute qualité, et de créer des animations élémentaires.

V-D. Quicktime▲

Apparu en 1991, Quicktime a été intégré au Système 7 des Macintosh. Il s'agit d'un environnement de développement et d'exécution qui permet d'associer à des données classiques des fichiers représentant des séquences sonores ou vidéo. Quicktime comprend essentiellement des formats de données standardisés, des procédés de compression/décompression, et une interface utilisateur spécifique. L'extension système utilisée est fondée sur le principe du maintien de l'isochronie des données, et introduit donc le temps comme élément principal du système d'exploitation. Quicktime est surtout conçu comme un ensemble de spécifications très ouvert, capable d'intégrer facilement un grand nombre d'évolutions matérielles et logicielles, sans remettre en cause les applications existantes.

V-E. Vidéo pour Windows▲

Vidéo pour Windows est un ensemble logiciel commercialisé par Microsoft permettant la captation et la restitution de vidéo animée sur PC. L'exécution de séquences vidéo est possible sans matériel spécifique, alors que la captation doit être faite au moyen d'une carte de numérisation. Une large compatibilité est permise grâce à la définition de spécifications permettant d'intégrer des matériels aux fonctionnalités différentes. Ainsi, à travers un ensemble de pilotes, Vidéo pour Windows sera capable de supporter des périphériques aux fonctionnalités diverses tout en assurant, autant que possible, les fonctions manquantes au niveau logiciel.

Pas plus que Quicktime, Vidéo pour Windows n'est pas un algorithme de compression. Il s'agit plutôt d'une interface standardisée entre le matériel et les procédés de codage et de compression, qui offre des API (interfaces de programmation) relativement indépendantes du matériel. Cependant, comme Apple, Microsoft a également défini des algorithmes de compression adaptés à différentes situations (Microsoft Vidéo 1, Microsoft RLE compressor), et intègre ceux proposés par des sociétés tierces, comme Indeo d'Intel. Plus qu'une technique de compression, Vidéo pour Windows fournit en fait une plate-forme commune sur laquelle pourront s'articuler divers procédés de codage.

V-F. Le Digital BETACAM▲

Proposé par Sony, il est dérivé de techniques JPEG qui ont été soigneusement adaptées aux travaux de postproduction de haute qualité. Il utilise des signaux vidéo 4:2:2 et leur applique un facteur de compression faible de 2:1. Chaque trame étant compressée séparément, il offre toutes les possibilités de montage requises pour un usage professionnel. Son principal inconvénient est son faible facteur de compression. Il est principalement utilisé pour les applications de type Broadcast.

V-G. La Digital Video Cassette (DVC)▲

Il s'agit d'un nouveau format de cassette vidéo digitale développé par le HD Digital VCR Consortium formé à l'origine par Sony, Matsushita, Philips, Thomson, Toshiba, Hitachi, JVC, Sanyo, Sharp et Mitsubishi. Ces dix sociétés ont uni leurs efforts pour proposer, en juillet 1993, la première spécification du format DV. Par la suite, de nombreuses autres sociétés se sont jointes au consortium qui compte aujourd'hui plus d'une soixantaine de membres. Ce nouveau format utilise certains éléments du standard JPEG pour le codage de la vidéo.

La compression DV ne joue que sur les redondances spatiales à l'intérieur de l'image complète. Elle ne cherche pas à réduire les redondances temporelles comme le fait le MPEG. Elle utilise un facteur de compression de 5:1. Elle permet donc d'obtenir une excellente qualité d'image en première génération, ce qui est l'idéal pour un usage grand public. Une heure de vidéo numérique en format composante(Y, R-Y, B-Y) peut être sauvegardé sur une minicassette plus petite qu'une cassette audio DAT. La qualité est considérée comme supérieure au BetacamSP. Une autre cassette DV légèrement plus grosse qu'une cassette 8 mm peut contenir jusqu'à 270 minutes d'enregistrement numérique !

V-H. La technologie FireWire▲

La norme FireWire, aussi connue sous le nom de IEEE-1394, a été introduite comme une interface universelle pour la transmission des données séries à haute vitesse entre différentes composantes électroniques telles que les disques rigides, les lecteurs CD-ROM, les scanners et les cartes de capture vidéo. La technologie FireWire supporte trois vitesses de transfert : 100, 200 et 400Mbits/sec. 16 périphériques peuvent s'interconnecter avec une distance pouvant aller jusqu'à 4 mètres entre chaque périphérique. Le branchement se fait grâce à un fil à 6 conducteurs regroupés en paires. Deux paires transmettent les données et les caractères de contrôle tandis que l'autre paire se charge de transporter l'alimentation (max. 60 W). Il existe aussi des connecteurs à quatre conducteurs dépourvus d'alimentation.

Il est important de faire la distinction entre la technologie FireWire et le DV. Les termes sont souvent interchangeables, mais ont une fonction bien différente. En gros on peut dire que la technologie Firewire est une affaire de plomberie. C'est un standard de transmission. C'est une nouvelle manière de transmettre des informations numériques à travers un câble et une prise spéciaux entre des périphériques et un ordinateur. Le DV, quant à lui, est un nouveau standard d'enregistrement. C'est une nouvelle manière d'écrire un signal vidéo compressé sur la bande magnétique.

VI. La télévision numérique▲

La télévision numérique n'est plus dans le domaine du futur, elle est maintenant une réalité dans le monde. Aux États-Unis d'abord, où des satellites offrent depuis quelques années plusieurs dizaines de chaînes de télévision en numérique, en Europe ensuite, où on assiste à une véritable mobilisation depuis les premières semaines de l'année 1996. Ce qui a permis la révolution numérique, ce sont les progrès réalisés dans la compression des données et plus particulièrement les travaux du groupe de normalisation MPEG (Moving Pictures Experts Group) dont furent issues entre autres les normes MPEG-1 et MPEG-2.

VII. Les avantages du numérique en matière de télévision par satellite▲

Grâce à la technologie du numérique, il est aujourd'hui possible de faire transiter simultanément plusieurs programmes dans un même canal satellite, là où on ne pouvait en loger, en analogique, qu'un seul et unique. Cette possibilité d'acheminer plusieurs chaînes de télévision numériques sur un même répétiteur de satellite permet de diffuser non plus quelques dizaines, mais quelques centaines de programmes sur chaque satellite. Parmi les autres avantages du numérique, on peut également noter :

la qualité constante des images et des sons en termes de transmission : le numérique est moins sujet aux perturbations extérieures que l'analogique et offre une meilleure résistance au bruit, au brouillage ou aux phénomènes d'écho ;
la facilitation de la compatibilité entre tous les pays : plus de standards disparates (NTSC, PAL , SECAM…) et une compatibilité accrue avec les équipements de production qui sont déjà numériques depuis longtemps ;
la réduction des coûts : cette multiplicité des canaux va de pair avec une réduction du coût de la retransmission des programmes puisque, en toute théorie, on devrait pouvoir diviser le prix actuel de la location de chacun des transpondeurs des satellites par le nombre de programmes qui pourront y transiter.

Vous avez aimé ce tutoriel ? Alors partagez-le en cliquant sur les boutons suivants :

Copyright © 12/06/2005 Daniel Jean. Aucune reproduction, même partielle, ne peut être faite de ce site ni de l'ensemble de son contenu : textes, documents, images, etc. sans l'autorisation expresse de l'auteur. Sinon vous encourez selon la loi jusqu'à trois ans de prison et jusqu'à 300 000 € de dommages et intérêts.