Jean-Pascal M.

La meilleure façon de ne pas avancer est de suivre une idée fixe (J. Prévert)

la description de contenus audiovisuels (résumé de thèse)

Posted by Jean-Pascal sur 12 décembre 2005

La thèse

   De la fin de l’année 2001 jusqu’à décembre 2005, j’ai mené au LIMSI (Un laboratoire CNRS attaché à l’Université Paris Sud) un travail de thèse portant sur l’indexation de documents audiovisuels. La problématique a souvent été mise en question (c’est le comble !)  et a tardivement atteind sa forme définitive, à savoir celle de la description sémiotique de contenus audivisuels et les outils permettant de produire cette description.

Description sémiotique de contenus audiovisuels

   Idéalement, produire une description d’un contenu audiovisuel, c’est modéliser l’espace réel ou fictionnel révélé par la caméra. Or pour être utile dans une optique d’archivage, un modèle de Document AudioVisuel (DAV) ne doit pas contenir que le recensement d’objets visibles à l’écran. Trois catégories d’éléments de descriptions du contenu sont nécessaires : les objets montrés et leurs caractéristiques physiques, les procédés de mise en image des éléments, et les relations diégétiques. Les deux premières catégories de descriptions peuvent être prises en charge par des méthodes numériques d’analyse de l’image, de segmentation, de reconnaissance de types de plans et de mouvements de caméra.   Cependant, l’identification de la troisième catégorie d’éléments – ceux de la diégèse, c’est-à-dire de l’univers spatio-temporel désigné par le récit – semble impossible à automatiser. Il faut pourtant convenir que c’est bien souvent cette catégorie qui fait sens pour l’opérateur d’indexation.
     Or, bien que les formalismes proposés par la communauté (tels que MPEG-7) aient un lexique ouvert et qu’ils prévoient des extensions par l’ajout de descripteurs sémantiques, le choix de ces descripteurs pour l’annotation d’un flux audiovisuel est un problème indécidable car ce choix dépend d’éléments contextuels (contexte d’analyse, conjoncture économique, politique et sociale) interprétés d’après des connaissances élaborées. En réponse à ce constat, et à partir d’un ensemble d’observations pour l’analyse de l’activité de documentation en audiovisuel, nous soulignons l’importance de garder l’homme dans la chaîne de production de description. Comme la modélisation sémantique manuelle a un coût important, nous apportons deux propositions : une méthode d’indexation sémiotique fondée sur des apports théoriques, et des spécifications architecturales adaptées à cette forme d’interaction homme machine.
     Premièrement, nous proposons de nous situer dans une analyse sémiotique du DAV, au sens fort, c’est-à-dire par l’identification et l’explicitation des signes réifiés lors de l’analyse. Ainsi, nous limitons la description de contenu à une description sémiotique désambiguïsant les références intensionnelles et extensionnelles. Pour cela nous définissons formellement le signe tétraédrique. De plus, les signes étant élaborés lors de la lecture du DAV, ils s’articulent au fur et à mesure de la construction d’un parcours interprétatif ; ils sont la conséquence d’une stratégie interprétative cognitive. L’interprétation est décomposée comme une somme de micro-interprétations réalisant des réécritures sémiotiques. Nous proposons une description sémiotique dans laquelle le modèle de DAV est une inscription numérique sous forme de graphes de signes du corrélat de l’activité mentale. Nous proposons d’opérationnaliser les graphes de signes par des schémas (RDF+OWL) pouvant servir d’extension à MPEG-7.
     Deuxièmement, après une analyse des dialectiques de l’archivage, nous préconisons un modèle d’interaction opérative entre l’homme et le système, sous la forme d’une artéfacture fournissant des outils d’aide à la réification de l’interprétation. Une plateforme pour la construction de graphes de signes est proposée, reposant sur l’ajout et l’organisation de signes sur un tableau noir par des opérateurs et des agents logiciels. Une syntaxe et une grammaire permettent la définition et la construction dynamique des signes négociés au sein de la plateforme. Des patterns d’interprétation peuvent être déclarés afin de fournir aux agents des micros interprétations activables en contexte, outillant et assistant ainsi l’interprétation. Des illustrations et des exemples de développements démontrent clairement l’intérêt de la construction collaborative de graphes de signes pour la description et l’analyse de DAV.


Télécharger le PDF (6Mo) : Description sémiotique de contenus audiovisuels

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

 
%d blogueurs aiment cette page :