I. Introduction▲
Des solutions sont d’ores et déjà proposées pour faciliter la recherche d'information de type texte. En effet, de nombreux moteurs de recherche sont accessibles sur le Web et font même partie des sites les plus visités, ce qui montre une réelle demande pour ce type de produit. Il n'est cependant pas pour autant possible de chercher des informations sur un contenu audiovisuel, puisqu'il n'existe en général pas de descriptions reconnaissables de ce type d'information. En règle générale, il n'est pas possible de trouver de façon efficace une image de « la moto de Terminator II » sur le Web, pour prendre un exemple. Dans certains cas particuliers, des solutions existent cependant. Des bases de données multimédias permettent aujourd'hui de chercher sur le marché des images à partir de certaines caractéristiques comme la couleur, la texture ou la forme d'objet dans l'image.
II. Objectifs de MPEG-7▲
MPEG a commencé à mettre au point un nouvel outil de travail pour répondre au problème décrit précédemment. Ce nouveau membre de la famille MPEG, appelé « Multimédia Content Description Interface » (MPEG-7) étendra les capacités de recherche limitées d'aujourd'hui pour inclure d'autres types d'informations. En d'autres termes, MPEG-7 va spécifier une description standard de différents types d'informations multimédias. Cette description devra être associée au contenu lui-même pour permettre la recherche rapide et efficace des informations qui intéressent l'utilisateur.
Ces « matériaux » incluent : images, graphiques, audio, vidéo et de l'information sur comment ces éléments sont combinés dans une présentation multimédia (scénario). La description peut être attachée à n'importe quel matériau multimédia, quel que soit le format de la représentation. Même si la description de MPEG-7 ne dépend pas de la représentation du matériau, le standard s'appuie en un certain sens sur le standard MPEG-4 qui fournit quant à lui les moyens de coder des matériaux audiovisuels.
La description standardisée des différents types d'information peut résider en un certain nombre de niveaux sémantiques. Pour prendre l'exemple d'un matériau visuel, un niveau d'abstraction bas pourrait être la description de la forme, taille, texture, couleur et composition. Les plus hauts niveaux donneraient des informations sémantiques comme : « il s'agit d'une scène avec une voiture rouge à gauche et un oiseau qui vole (dans le ciel) », codée sous une forme efficace. Des niveaux intermédiaires pourraient aussi exister.
En plus de la description du contenu, il peut être également nécessaire d'inclure d'autres informations, comme le format (par exemple le type de compression utilisée) ou la taille. Cette information aide à déterminer si le matériau peut être lu par l'utilisateur. On peut aussi penser aux conditions d'accès aux matériaux, qui pourrait inclure des informations concernant le copyright et le prix, ou des liens vers d'autres matériaux intéressants.
Contrairement aux précédentes versions du MPEG, MPEG-7 n'est pas un format de compression. Ou en tout cas, pas seulement. Destiné au multimédia au sens large du terme, il vise à encoder toute forme de données audiovisuelles, du texte à la vidéo, du modèle 3D aux présentations interactives. Mais surtout, le standard propose de compléter les données par leur description. MPEG-7 c'est, en résumé, « des bits à propos des bits ». Autrement dit, un ensemble de données supplémentaires décrivant le contenu, son auteur, sa structure, ou même les éléments sémantiques qu'il représente. Le principe est à la fois ambitieux et novateur et on imagine bien la puissance d'un tel standard, notamment en matière de recherche sur le Web. C'est d'ailleurs ce qui semble motiver ses concepteurs : « La principale ambition de MPEG-7 est de rendre les informations multimédias aussi faciles à trouver sur le Web que le texte l'est aujourd'hui. » Par exemple, on pourrait imaginer un moteur qui parcourt le Web à la recherche d'une phrase musicale précise : tapez quelques notes de musique au clavier, et vous obtiendrez tous les morceaux comportant les mêmes notes. Même chose avec les images, il sera possible d'identifier les fichiers comprenant un objet d'une couleur donnée, même s'il ne s'agit que d'une partie de l'image. Du reste, l'intérêt n'est pas négligeable en matière d'intégrité des données, et donc de respect des droits d'auteur. Mais, bien qu'intellectuellement plaisant, MPEG-7 soulève quelques interrogations.
D'abord, le poids final des fichiers encodés avec ce format, dont on peut supposer qu'il sera, par essence, plus important que celui de la description des données en elle-même. Ensuite la base existante, si l'on considère les milliards d'informations numériques (fichiers image, audio et vidéo) déjà encodées à d'autres formats, on peut s'inquiéter de la vitesse à laquelle se répandrait un nouveau standard, encore en cours de conception aujourd'hui.
Enfin, et surtout, on peut se poser la question de l'utilité réelle d'une telle solution. La recherche d'une succession de notes dans l'océan de la musique mondiale peut s'avérer intéressante, mais sûrement pas pour le commun des mortels, qui se satisfait très bien d'une recherche plus classique par auteur ou par titre. En plus, il existe d'autres solutions pour indexer, au besoin, des données multimédias. Qui ne se souvient pas de l'affaire Clinton/Lewinsky. Peu après l'audition du Président, les enregistrements vidéo des témoignages étaient disponibles sur AltaVista. Tronçonnés en courtes séquences, ils étaient indexés à la fois automatiquement (à l'aide d'un outil spécifique) et manuellement. Le résultat était probant, la saisie d'un texte permettait d'identifier rapidement tous les extraits vidéo dans lesquels la phrase correspondante avait été prononcée (souvent, curieusement, le dispositif était utilisé pour trouver le mot « cigare »).
Il n'est donc pas certain qu'il soit légitime de chercher à imposer (et généraliser) un standard surpuissant, là où d'autres solutions « sur mesure » peuvent suffire. Décrire les données tout en les compressant est pourtant une tentative logique d'organisation et de structuration du contenu numérique. Mais il est bien dommage que l'on s'en préoccupe si tard. Car finalement, le vrai problème de MPEG-7, c'est sans doute le « 7 ».
III. Présentation du standard MPEG-7▲
Les données multimédias sont dispersées dans de nombreuses bases de données. Dans ce contexte, MPEG-7 se propose de standardiser la représentation de leur contenu pour la recherche et le filtrage d'informations. Beaucoup d'applications peuvent bénéficier de MPEG-7, telles que la recherche dans les bases de données audiovisuelles (pour le médical, l'éducatif, les loisirs, la surveillance…), ou la sélection de programmes diffusés.
IV. Qu'est-ce que la norme MPEG-7▲
IV-A. Un standard de description▲
Le format MPEG-7 est complètement indépendant de la technique de codage ou de stockage du contenu du document multimédia. On peut établir une description MPEG-7 d'un fichier MPEG-2 ou MPEG-4 bien sûr, mais on peut faire de même avec un film analogique ou un journal papier. Il s'agit uniquement d'un standard de représentation du contenu des documents. L'utilisation principale de MPEG-7 concernera évidemment les documents multimédias (contenant à la fois vidéo et audio). Les informations qui apparaîtront dans un document MPEG-7 seront de cinq natures différentes, résumées dans le tableau suivant :
Ensemble des éléments |
Fonctionnalité |
Création et production |
Des méta-informations qui décrivent la création et la production du contenu, elles décrivent le titre, le créateur, le but de la création. |
Utilisation |
Des méta-informations reliées à l'utilisation du contenu : elles comportent les droits d'accès, des informations financières, des droits de publication. Ces informations peuvent faire l'objet de changement durant la durée de vie du contenu audiovisuel. |
Média |
Ces informations décrivent les caractéristiques de stockage : format, éléments pour identifier le média. |
Aspects structurels |
Des descriptions d'un point de vue contenu : ces informations décrivent les segments qui peuvent représenter des composantes spatiales, temporelles ou spatio-temporelles du contenu audiovisuel. Chaque segment peut être décrit par les caractéristiques suivantes (la couleur, la texture, la forme, la motion, d'autres caractéristiques audio…) et quelques informations sémantiques élémentaires. |
Aspects conceptuels |
Des descriptions du contenu audiovisuel d'un point de vue conceptuel. Ces informations ne sont pas indiquées dans les documents techniques du standard MPEG, car elles sont en cours de standardisation. |
IV-B. Les limites▲
Le standard MPEG-7 ne concerne absolument pas les aspects production et utilisation des descriptions. C'est d'ailleurs dans cette optique que l'exemple suivant a été créé, il s'agit de produire et utiliser une description MPEG-7 sommaire (à partir d'un ou deux descripteurs).
V. Principe de description MPEG-7▲
V-A. La philosophie▲
Toute description MPEG-7, étant basée sur le langage XML, est constituée d'objets imbriqués. Cette imbrication se fait selon un certain schéma descripteur, lui-même établi à partir d'un langage de définition de descriptions comprenant les éléments suivants...
V-A-1. Les descripteurs (D)▲
Ce sont des présentations de caractéristiques des éléments. Ils définissent la syntaxe et les sémantiques de chaque représentation de ces caractéristiques.
V-A-2. Les schémas descripteurs (SD)▲
Ils spécifient la structure et les sémantiques des relations entre leurs composantes, qui peuvent être soit des descripteurs soit des schémas descripteurs.
V-A-3. Un langage de définition des descriptions (LDD)▲
Il permet la création de nouveaux descripteurs ou schémas descripteurs. Il permet également d'étendre et de modifier les descripteurs et les schémas descripteurs existants. Les outils et les systèmes qui permettent de générer les descripteurs et les schémas descripteurs du standard MPEG-7, qui permettent de les gérer, les manipuler.
V-A-4. Valeur d'un descripteur▲
Instance d'un descripteur pour un ensemble de données Rq, les valeurs sont combinées avec les schémas de descriptions pour former une description.
V-A-5. Description▲
Consiste en un SD et en un ensemble de valeurs de descripteurs décrivant la donnée.
V-B. Hiérarchie▲
Les objets imbriqués formant une description MPEG-7 peuvent aussi bien être des descripteurs que des schémas descripteur (eux-mêmes à l'origine d'autres descripteurs). Le diagramme suivant traduit cette hiérarchie tout en nous rappelant que le langage de définition des descriptions permet une totale extensibilité du standard.