Le plongement fractal

(Chapitre II - HDR de Philippe Guillemant: Groupe de Vision Artificielle et Biophysique )

Il ne faut pas dire que la science est utile parce qu'elle nous permet de construire des machines.

Il faut dire : les machines sont utiles parce qu'elles nous permettent de faire de la science.

(Henri Poincaré)

 Résumé

La méthode du plongement fractal est présentée puis illustrée à travers quatre applications du génie de la perception dynamique, choisies parmi celles que nous avons développées, qui permettent ainsi de la valider, avant des publications qui attendent la levée du secret industriel. Deux de ces applications sont orientées vers les objets perçus, et les deux autres vers le sujet percevant. Dans le premier cas, les objets sont d'une part des scènes extérieures contenant un phénomène dynamique local complexe tel qu'une fumée à détecter, d'autre part des scènes intérieures contenant des objets complexes non identifiés qu'il s'agit de caractériser pour saisir un mouvement d'ensemble, du au mouvement propre du sujet ou de la caméra. Dans le second cas, c'est le sujet qui est exploré, d'une part par l'intermédiaire de ses réponses oculaires réflexes ou volontaires à différentes stimulations visuelles, mécaniques ou même thermiques, d'autre part par l'intermédiaire de son activité électrique cérébrale sondée en plusieurs points, à l'aide d'électrodes superficielles ou intracérébrales, s'agissant de mesurer un niveau d'éveil ou de caractériser un stade d'activité de la région du cerveau concernée. Dans tous les cas, les nuages de points qui résultent du plongement fractal spatial ou temporel de ces informations dynamiques complexes contiennent des voisinages dont l'identification permet d'extraire, soit un mouvement d'ensemble de contours d'objets ou de taches de l'iris, soit un mouvement local résultant de la propagation de trajectoires de bouffées ou de signatures électriques. En conclusion, nous soutenons que l'extraction très rapide des corrélations spatio-temporelles locales permises par un chaînage fractal de points dans un espace de dimension élevée, est certainement l'atout de base d'une nouvelle technologie qui a des chances de s'imposer dans le futur.

 

 2.1 Introduction

Nous insistons dans ce chapitre sur l'intérêt, pour les quatre applications que nous y présentons, du concept de plongement fractal, que nous avons ainsi qualifié parce qu'il s'agit du plongement de données expérimentales dans un espace de phases balayé par une courbe fractale permettant l'indexation des points avec respect des voisinages. Il s'agit de plongement sur un fractal, et non de plongement engendrant une structure fractale. Le concept en lui-même n'est pas nouveau, mais emprunté à des spécialistes des bases de données informatiques [45] [62], dont les préoccupations sont très techniques. Nous avons simplement rendu possible l'importation de ce concept aux systèmes dynamiques complexes en introduisant une méthode de chaînage de points dans un espace de dimension élevée, qui a fait l'objet d'un brevet sur une application bien précise [5]. Parce que le développement de toutes les applications décrites avait déjà été commencé avant l'apparition de cette méthode, mais butait sur des problèmes qu'elle a résolu de façon très démonstrative, cette introduction contient un historique qui peut apporter un éclairage intéressant.

En 1996, nous étions relativement bien avancés dans la validation de l'usage clinique de la dimension de corrélation D2 pour caractériser des stades d'activité EEG. Notre collaborateur de la faculté de médecine de Marseille (Dr Rey, Maître de conférences) avait montré que les hypnogrammes du sommeil humain [8], et que les découpages en différents stades des crises d'épilepsie [10], que font visuellement les électrophysiologistes à partir de tracés parfois très longs et fastidieux à consulter, se recoupent très bien avec les variations de ce paramètre, plutôt appelé dans la littérature dimension de complexité Dc, par référence à sa capacité à quantifier la complexité d'un signal, qui témoigne du nombre de degrés de liberté de son système générateur. Nous avions alors développé par optimisation de méthodes classiques [67] un algorithme permettant de réaliser en temps réel des mesures de Dc que nous avons testé sur des centaines d'heures d'enregistrement, par glissement d'une fenêtre temporelle. L'intérêt clinique de cette analyse non linéaire de l'EEG était clair, mais la méthode restait discutable et difficile à interpréter d'un point de vue théorique. De plus, il fallait pouvoir évoluer de l'analyse d'un signal à celle de plusieurs signaux simultanés (beaucoup d'enregistreurs ont 32 voies), le calcul simultané de paramètres tels que Dc n'étant pas judicieux. Le traitement de ces multiples mesures se heurtait toujours au problème des artefacts (50 Hz ou décollement d'électrode par exemple), une seule voie faussée pouvant affecter le résultat.

Ce constat de limite à la fois théorique et pratique de l'analyse non linéaire pratiquée sur une voie d'EEG, ne pouvait être levé par une adaptation ou un autre type de paramètre. Le fait que l'on dispose de nombreux signaux qui témoignent dans leur ensemble d'une activité plus ou moins corrélée, en particulier dans le cas d'une crise d'épilepsie qui traduit le fait qu'une contagion locale sur une voie peut se propager à l'ensemble des voies c'est à dire du cerveau, indiquait qu'il fallait changer d'approche et passer d'une analyse non linéaire temporelle à une analyse spatio-temporelle. Parallèlement à ce constat, nous étions en même temps à la recherche de méthodes d'analyse spatio-temporelle de signaux de fumée [40] transportant des bouffées dont la propagation induisait des corrélations déphasées de segments temporels (figure 3). Nous avions également mis en évidence la nature non linéaire des signaux de fumée, leur dimension de corrélation étant nettement inférieure à la dimension calculée par la méthode des données surrogées. Toute approche linéaire étant exclue, il fallait résoudre un problème similaire des deux cotés, c'est à dire trouver une méthode capable d'extraire une information globale permettant d'identifier des grandeurs pertinentes pour décrire de façon heuristique le comportement d'un flot de données spatio-temporelles complexes, de contenu spatial faiblement résolu et plutôt pauvre, et de contenu temporel relativement riche.

La complexité et la richesse du contenu temporel de chaque signal, et la contagion ou la propagation intermittentes d'informations d'un signal à l'autre à l'intérieur d'une enveloppe sous-échantillonnée et géométriquement complexe, sont des caractéristiques communes aux signaux EEG et aux signaux de fumée, qui justifiait la même approche. Cependant nous souhaitions que cette approche se ramène au cas particulier de l'analyse non linéaire classique dans le cas d'un système pauvre en informations spatiales. Il est en effet important de savoir traiter d'une part le cas de fumées éloignées pour lesquelles on dispose de moins de quatre pixels, d'autre part celui de l'application clinique en réanimation où il est hors de question de poser plus de deux ou trois électrodes. Pour que l'hypothèse de pauvreté de l'information spatiale puisse englober le cas limite d'un unique signal résiduel, nous devions nécessairement opérer par plongement temporel des signaux. Mais le plongement temporel de plusieurs signaux distincts dans le même espace posait un problème de mélange de corrélations d'origines très différentes illustrée par la figure 6.

La nécessité de différencier ces trois types de corrélations présentes dans les volumes de données spatio-temporelles complexes (figure 6) impliquait l'usage d'une méthode capable de différencier les voisinages de points incarnant ces corrélations. Mais le caractère massif de l'information à traiter rendait totalement exclue toute méthode opérant par comparaison de points de l'espace à tous les autres points de l'espace, pour identifier ces voisinages. De plus, la contrainte de traitement temps réel sous-jacente à la faisabilité des applications impliquait une méthode capable d'identifier directement le voisinage d'appartenance de chaque nouveau point à plonger. Il fallait donc pouvoir calculer directement un identificateur du voisinage auquel ce point appartenait, afin de le comparer uniquement aux autres points de même identificateur. Les corrélations recherchées pouvant être plus ou moins étroites, il fallait aussi pouvoir identifier des voisinages sur des échelles très différentes. L'ensemble de toutes ces contraintes limitait tellement l'approche qu'il restait une seule possibilité:

<<Faire traverser l'espace des phases par une courbe balayant tous les points d'un hypercube avant de balayer ceux d'un hypercube voisin, quelque soit l'échelle de l'hypercube, de façon à ordonner tous les points du système par ordre de rencontre de telle manière que les points appartenant au même voisinage puissent être représentés par un même identificateur, fonction du rang de chaque point sur la courbe.>>

Les seules courbes capables de satisfaire à cette propriété sont les courbes fractales de type "space-filling". Pour l'exploiter dans le cas de l'EEG puis des fumées, nous avons mis au point la méthode du plongement fractal. En comparaison aux autres méthodes mettant en jeu de telles courbes, notre contribution s'est attachée à rendre compatible ce type d'analyse au plongement temporel de données de dimension élevée (16), la dimension de corrélation de ces deux systèmes étudiés pouvant excéder 8.

Dans un premier temps, l'application du plongement fractal au calcul de la dimension de corrélation de l'EEG ayant donné des résultats très encourageants, nous avons fait déposer en 1997 des brevets par le CNRS [4] [5] portant sur deux versions de cette méthode, raison pour laquelle en avons retardé la publication. Les résultats font l'objet de la section 2.3.

Dans un deuxième temps, cette méthode a donné d'excellents résultats pour l'extraction des bouffées de fumées et des paramètres de leurs trajectoires, exposés dans la thèse de doctorat de Jérôme Vicente [40]. S'agissant d'un contrat CIFRE industriel, la publication de ces résultats est soumise à l'approbation d'une entreprise. Ils font l'objet de la section 2.2.

Dans un troisième temps, nous avons appliqué cette méthode au plongement spatial de contours complexes d'objets de scènes intérieures, pour améliorer un dispositif d'analyse de mouvements de tête par traitement d'images d'une caméra solidaire de la tête [1]. Nous avions alors mis en œuvre un réseau de neurones dont le bon fonctionnement nécessitait des conditions très soignées, parfois rédhibitoires. Le remplacement de l'ancienne architecture d'entrée du réseau par un chaînage fractal a permis d'améliorer considérablement cet ancien prototype, et en particulier de pouvoir calculer les trois mouvements de rotation de la caméra. La société qui commercialise cet appareil étant en contrat avec le CNRS, la publication de ce nouveau procédé, qui devrait intéresser vivement la concurrence, attend que le nouveau produit VOM ait suffisamment pénétré son marché. La nouvelle architecture basée sur le plongement fractal de contours fait l'objet de la section 2.4.

Dans un quatrième temps, nous nous sommes intéressés à l'amélioration du calcul de la composante torsionnelle des mouvements oculaires, qui utilise dans sa version actuelle un réseau de neurones statique à deux couches, dont le remplacement de la première couche par des neurones capables de reconnaître finement la texture locale de l'hétérogénéité à laquelle ils sont affectés pourrait améliorer énormément le procédé actuel. Ce procédé dont la divulgation ne suffit pas à faire naître un risque de concurrence car il nécessite encore des recherches, a fait l'objet de différentes publications et communications [9] [13]. L'utilisation du plongement fractal pour procéder à son amélioration est à l'étude. Nous présentons cette application dans la section 2.3

Par ces différents exposés, nous souhaitons mettre en évidence que notre recherche est fortement stimulée par les applications, leur besoin perpétuel d'améliorations engendrant des contraintes qui, si elles sont réellement prises en compte et non pas contournées par différents artifices, peuvent déboucher sur de nouveaux concepts. Nous pensons que d'une manière générale, le fait d'adopter une approche horizontale, ici en biophysique, qui marrie différentes applications, a pour conséquence une inversion du dogme habituel de la recherche, qui impose l'idée que les applications viennent en conséquence des découvertes obtenues grâce à une recherche fondamentale. Notre expérience nous autorise à suggérer l'hypothèse contraire, en l'occurrence qu'une démarche horizontale qui oblige dans un premier temps à développer des applications, fondées sur des mesures, lesquelles servent à la fois de cadre expérimental et exploratoire, engendre par la suite des retombées au niveau de la recherche fondamentale, que cela soit par les nouveaux concepts rendus nécessaires par le besoin de nouveaux outils, ou par les nouveaux concepts résultant des explorations interdisciplinaires qu'ils permettent de mettre en œuvre.

2.2. Le plongement fractal

Le plongement fractal est l'outil central de notre approche de la perception dynamique. Le qualificatif de " plongement fractal " résulte du rapprochement que nous faisons entre des méthodes d’indexation fractale d’hypercubes [45] pour la gestion de bases de données, utilisées par certains informaticiens qui traitent des informations à la fois complexes et massives, et des méthodes d’analyse d’ensembles de points obtenus par plongement temporel de signaux [59] dans un espace de phases, utilisées par les mécaniciens des systèmes non linéaires [61].

Nous venons de voir l'une des approches de ces systèmes, à travers l'analyse non linéaire et le calcul d'estimateurs donnant une indication globale sur l'ensemble d'un système. Lorsqu'on a cependant affaire à un système trop hétérogène le calcul d'estimateurs moyens n'est plus pertinent. Il importe alors de localiser et d'analyser chacune des hétérogénéités du système. C'est pourquoi l'analyse d'ensembles de points et en particulier les méthodes qui permettent de regrouper et d'associer des points revêtent un grand intérêt. En particulier, le regroupement ou clustering [57] par indexation génère un ensemble très restreint de valeurs qui sont des index de l'ensemble de points initial, avec une compression importante de l'information. Ces index sont ceux des hypercubes qui contiennent tous les voisinages de l'ensemble. La compression d'information provient du remplacement des voisinages par un point représentatif ou centroïde, mais provient aussi du remplacement de l'espace d'origine par une courbe monodimensionnelle qui passe par tous les centroïdes de chaque hypercube. Ces méthodes fournissent un moyen de résoudre le problème du voyageur de commerce [71], où il importe que les segments le long d'une chaine de points ou centroïdes correspondent à des voisinages pour lesquels les distances entre points sont minimales (fig. 11).

Fig. 11. Certains segments le long d'une chaîne de points visités par un "voyageur de commerce" correspondent à des voisinages

La meilleure façon de préserver le voisinage, lorsqu'on projette tous les hypercubes élémentaires d'un espace discrétisé sur une courbe réduisant ainsi sa dimension à 1, est d'utiliser des courbes fractales [64], et en particulier des courbes dont la dimension fractale est égale à celle de l'espace. La courbe la plus efficace du point de vue de cette propriété de préservation du voisinage est la courbe de Hilbert [48].

Le recouvrement de l’espace par des courbes fractales ou " space filling curves" [53] permet d’effectuer une indexation de chaque hypercube de l’espace par des identificateurs monodimensionnels qui restent identiques ou voisins lorsque les points qu'ils identifient sont initialement voisins dans l’espace et respectivement situés dans le même hypercube ou dans deux hypercubes voisins.

L'indexation fractale met cependant souvent en jeu des algorithmes de calcul par itérations successives dont la complexité a probablement été le facteur limitant de son utilisation. Le caractère original de l'approche que nous proposons réside dans l'emploi d'un calcul qui rend possible la transposition de l’indexation fractale au plongement de données expérimentales dans un espace de dimension élevée. En particulier, cette approche permet d'effectuer une analyse des singularités d'ensembles de points pour différentes échelles d'observation. Pour bien le comprendre, considérons tout d'abord une courbe fractale C2d de dimension fractale égale à d, qui traverse une fois et une seule tous les points d'un espace discrétisé, et dont l’algorithme générateur parcourt les 2d points d’un hypercube binaire. Etant donné une telle courbe C2d, on peut définir une fonction de tout point de l’espace Mk appelée rang fractal par :

(3)

en égalisant à 1 toutes les distances entre points qui se succèdent sur la courbe. Dans le cas d’un espace destiné au plongement de séries expérimentales de données dont la discrétisation est limitée par un nombre de bits e (par exemple e=12), on  a:

(4)

l’espace étant confondu avec son plus grand hypercube de dimension d. Il est alors intéressant d’étudier l’évolution de fr(Mk) en fonction de la norme infinie :

. (5)

On note pour celà que cette dernière expression est bornée par 2e, et que pour tout facteur d’échelle entier s compris entre 1 et e, on a la relation suivante :

(6)

cette relation se déduisant du fait que pour atteindre un point quelconque situé à une distance supérieure à 2s du point origine M1 (selon la norme infinie), la courbe fractale doit préalablement traverser tous les points d’un hypercube construit à partir du point origine M1, et comportant un nombre de points égal à 2sd. On peut généraliser cette inégalité au cas d’un couple de points (Mj,Mk) quelconque de l’espace, en remarquant que pour aller d’un point à un autre de l’espace séparés par une distance supérieure à 2s, la courbe fractale est contrainte de traverser au moins un hypercube de taille 2d(s-1) :

(7)

On déduit de (6) et (7) qu’à une échelle près, quantifiant respectivement la taille et le coté d’un hypercube, deux points voisins sur la courbe fractale, car situés dans le même hypercube, sont nécessairement voisins dans l’espace, car séparés d’une distance de l’ordre de grandeur du coté de cet hypercube. Notons que l’inverse n’est faux que dans un nombre de cas restreint : deux points éloignés sur la ligne fractale peuvent être voisins dans l’espace lorsqu’ils se trouvent l’un et l’autre en bordure et de chaque coté de la frontière entre deux grands hypercubes. Nous négligerons cette restriction dont la quantification est complexe et surtout inutile car elle représente une limitation incontournable de la méthode exposée, dont les effets seront commentés sur les résultats.

Malgré cette limitation, la propriété du rang fractal dégagée par l’inégalité (7) autorise une estimation de densité locale d’un attracteur, dans la mesure où toute concentration de points sur un histogramme du rang fractal, représentant la densité locale de points sur la courbe fractale, correspond nécessairement à une concentration locale des points dans l’espace des phases. C’est pourquoi nous pouvons considérer une courbe fractale C2d comme un espace mono-dimensionnel de plongement, vis à vis d’au moins une de ses propriétés. Il reste à associer à ce plongement le formalisme adéquat. Pour cela, il est nécessaire d'effectuer le calcul du rang fractal à partir des coordonnées cartésiennes des points dont on dispose. Pour pouvoir aisément et surtout rapidement faire une projection fractale à partir de coordonnées cartésiennes, nous utilisons une courbe dérivée de la courbe de Péano, représentée en dimension 2 sur la figure 12.

 

Fig 12 : les 4 premières itérations de la Z-curve en dimension 2

 Notre approche repose donc dans la pratique sur l'utilisation de la courbe en Z, ainsi intitulée à cause de la forme de son générateur (figure 12). Elle fait suite aux travaux sur l’indexation spatiale de Orenstein [62]. Le principe qu'il utilise est le suivant: chaque point de l’espace est indexé le long d’une courbe fractale de telle manière que pour un ensemble quelconque de points voisins, les index du plus petit au plus grand constituent un intervalle dans lequel ne figurent que très peu de points extérieurs au voisinage.

L'avantage que présente à nos yeux la courbe en Z sur d’autres types de courbes fractales, comme la courbe de Hilbert [48], est tout d'abord la mise en équation explicite du rang fractal fr qu’elle permet d’effectuer:

(8)

où les xi(j) sont les e bits de résolution des d coordonnées du point. Dans le cas des sources de fumées, les bouffées spatio-temporelles ont été plongées selon la méthode des délais en utilisant e = 8 bits par pixel, d = 16 valeurs successives de chaque signal temporel de bouffée, et un délai de 300 ms environ (voir 2.3). Le calcul du rang fractal fr revient dans la pratique à transposer la matrice de bits constituée par les coordonnées des points. La figure 13 illustre cette transposition pour e = 4 bits et d = 2 dimensions.

 

Figure 13 : transposition d'une matrice de bits de 2 coordonnées codées sur 4 bits

Un codage informatique optimisé permet une conversion rapide en identificateur (à 8 bits dans l'exemple illustré, et à 128 bits dans le cas des fumées) par transposition de bits suivie de l'insertion de chaque nouvel identificateur ou rang fractal à l'intérieur d'une chaîne d'identificateurs déjà formée. Notre méthode du plongement fractal repose sur ces différentes opérations, calcul d'identificateur et surtout chaînage fractal. Ce chaînage illustré par la figure 7 permet l’extraction aisée des meilleures corrélations dans les signaux traités, qui se traduisent en voisinages le long de la chaîne de points ordonnés suivant leur rang fractal. Le procédé informatique du plongement fractal par chaînage de points est décrit dans un brevet [5] portant sur son utilisation pour l'analyse non linéaire des signaux EEG. Ce procédé rend possible l’application de l’indexation fractale à l’analyse non linéaire de signaux expérimentaux en dimension élevée, selon une méthode décrite au 2.4.

Le chaînage fractal permet d'introduire une fonction mathématique qui possède un grand intérêt, comme nous verrons plus loin, et que nous appelons fonction d'isolement Is. Considérons n points Mk de l'espace de phases où kÎ Id={0,..,n}, et la séquence af : Id® Id qui classifie les points selon leur rang fractal en associant à tout index i de point Mi celui du point suivant dans la chaine, telle que avec . Soit bf la séquence inverse de af c'est à dire telle que pour tout iÎ Id, , et son opérateur associé bfk. Pour chaque nouveau point indexé par i pris en compte dans le calcul, les éléments af(i) et bf(i) sont calculés dans la pratique en limitant la comparaison de fr(i) avec les rangs fractals appartenant à une même classe définie par un histogramme [5]. Les séquences af et bf chaînent les points de telle sorte que les points de la même structure locale sont généralement consécutifs dans la chaîne. Elles permettent l'introduction d'une fonction Is(i) qui quantifie le degré d'isolement de chaque point de la structure analysée, à partir de la plus petite différence de rang fractal avec ses deux voisins sur la chaîne:

(9)

qui est donc la distance le long de la courbe fractale entre un point et son plus proche voisin sur la chaîne. Ainsi définie, cette notion d'isolement est en fait relative à une paire de points qui se succèdent. Il est plus général d'introduire la fonction d'isolement moyen de n points (n³ 2) consécutifs dans la chaîne par:

(10)

où i est l'index du premier point de la séquence. Lorsque ces n points appartiennent à une singularité locale, la force (ou la finesse) de cette singularité peut être quantifiée par la fonction d'isolement. Plus elle est faible, plus la densité locale est élevée. On peut montrer qu'au sens de la norme infinie L¥ , pour tout facteur d'échelle s on a l'inégalité suivante:

(11)

qui montre que lorsque l'isolement Is(i) d'une séquence de n points tend vers 0, la distance entre les frontières de cette séquence tend vers 0, donc la densité locale des points de cette séquence tend vers l'infini, d'une façon inversement proportionnelle à cette distance.

La figure 14 montre alors une allure typique de la fonction d'isolement relative à un nuage de points présentant une singularité locale due à la présence de corrélations dans les signaux plongés. On observe généralement un pic plus accentué que les autres, qui correspond à la phase pour laquelle la corrélation entre les segments temporels plongés par la méthode du délai est la plus étroite. Les autres pics résultent des autres phases de la même corrélation. On remarque que le logarithme de la fonction d'isolement se comporte comme la fonction fictive de la figure 7. Rappelons que les phases qui engendrent les pics peuvent être de différents types. Dans le cas de l'analyse non linéaire d'un signal il s'agit de segments appartenant au même signal, la corrélation provenant d'une répétion du même scénario d'évolution qui peut être d'origine chaotique. Dans le cas de signaux spatio-temporels considérés ici (figure 14), il s'agit de segments appartenant à des signaux distincts, la corrélation provenant de la propagation d'un événement local transporté par un signal EEG vers d'autres signaux EEG.

 

Figure 14. Fonction d'isolement d'un nuage de points construit par plongement temporel de plusieurs signaux EEG dont les 16 principaux pics résultent des différentes phases d'une même signature commune.

 Il faut noter que l'extraction des pics de la figure 14 est particulièrement aisée à partir de la chaîne de points. On peut encore mieux comprendre l'intérêt de la fonction d'isolement et du plongement fractal, si l'on considère l'arrivée d'un nouveau point issu d'un segment temporel ou construit par une autre méthode de plongement, comme nouvel échantillon à additionner à un nuage de points existant ou antérieur. Le chaînage fractal permet d'identifier immédiatement la structure locale à laquelle ce nouveau point appartient, sans avoir à procéder à des comparaisons entre ce point et chaque autre point du nuage, par des calculs de distance qui peuvent être très lourds. Cette propriété permet d'accélérer considérablement les calculs qui nécessitent de telles comparaisons, et dont la grande majorité sont inutiles. En particulier, nous verrons que cela fournit un moyen d'obtenir les paramètres non linéaires d'un système dynamique de façon très rapide (voir 2.4), en particulier la dimension de corrélation dont le calcul par la méthode de Grassberger-Procaccia [66] est particulièrement lourd.

Dans le 2.3, nous montrons que le plongement fractal permet l'extraction des trajectoires de phénomènes fugitifs et mal contrastés.

Dans le 2.4, nous expliquons comment l'appliquer au calcul de D2 dans le cas de données massives.

Dans le 2.5, nous envisageons son utilisation pour la caractérisation de textures.

Dans le 2.6, nous illustrons son application à la création dynamique de neurones mathématiques élémentaires [74], associés à plusieurs régions denses de l'espace, et en particulier à un attracteur, caractérisé par l'accumulation de points le long d'une structure. A partir de la chaîne d'index classifiés selon leur rang fractal, on peut déterminer un ensemble de connexions qui relient toutes les régions d'un même attracteur à un même neurone de position.

 2.3 La détection des feux de forêts

Un être humain, une vigie, reconnaît parfaitement une source de fumée lorsqu'il la regarde c'est à dire lorsqu'elle est focalisée dans son regard central (vision fovéale), mais beaucoup moins lorsqu'elle ne met en jeu que sa vision périphérique. C'est pourquoi la surveillance des feux de forêts requière une mobilité permanente de la part d'une vigie qui doit sans arrêt mouvoir ses yeux et sa tête pour balayer son champ de surveillance.

Fig. 15. Le capteur du détecteur automatique des feux de forêts ARTIS FIRE comprend dans sa version initiale un boîtier contenant l'électronique, le système de communications, et le logiciel de détection, alimentés éventuellement par batteries et panneaux solaires.

Pour ne pas avoir à balayer mécaniquement son champ de surveillance, et utiliser ainsi un matériel beaucoup moins couteux (figure 15) notre procédé de détection des sources de fumées procéde en deux étapes: tout d'abord un prétraitement périphérique du paysage, qui renvoie des zones suspectes, puis une analyse centrale et séquencielle de chacune de ces zones afin d'identifier une signature spatio-temporelle. La recherche de la composition pertinente de cette signature du point de vue de la détection est typiquement un problème de caractérisation d'un percept dynamique local. Cette caractérisation nécessite l'identification des singularités contenues dans un flot de données spatio-temporelles, contenu dans une sous-image dynamique locale (figure 16), qui sont engendrées par les mouvements des bouffées. Ce sujet fait l'objet d'une thèse sous contrat CIFRE de Jérôme Vicente, étudiant à l'IUSTI. Le produit auquel cette étude est liée est le système de détection ARTIS_FIRE, commercialisé par la société Lyonnaise T2M, et actuellement expérimenté sur plusieurs sites pilotes par les Marins-Pompiers de Marseille.

Fig. 16. Sous-image contenant l'enveloppe d'une fumée bien développée telle qu'elle peut typiquement apparaître à une distance nominale de 3 km, avec une résolution d'une douzaine de pixels par coté.

Il est difficile de visualiser sur un support statique la dynamique d'une source de fumée, afin de mettre en évidence la difficulté du problème de la détection des bouffées. Une source de fumée donne naissance à des variations temporelles locales de luminance qui sont trop complexes pour être convenablement identifiées par des méthodes d'extraction classiques de mouvement par traitement de séquences d'images [55]. Ces méthodes reposent sur l'estimation directe du mouvement par le mapping de caractéristiques spatiales et ne conviennent pas à des images aussi peu structurées que les images dynamiques de fumées.

Pour détecter une fumée distante, l'information à traiter présente une qualité insuffisante et les différents facteurs qui influencent le phénomène déforment à la fois la structure et son enveloppe. Le problème posé est celui de la détection de mouvements fugitifs de bouffées ou pulses de fumée qui apparaissent de façon épisodique dans l'enveloppe de la fumée. Les mouvements à détecter sont relativement peu contrastés parce qu'ils sont essentiellement composés de front de bouffées qui se superposent à l'intérieur d'une enveloppe déjà occupée par la fumée. Un tel front, considéré à partir d'une source originelle (x,y,t) peut être identifié en vitesse et direction durant un certain temps T, sur une trajectoire qui recouvre au moins quelques pixels. La répétition approximative des mêmes évolutions temporelles ou signatures due à sa propagation engendre différentes corrélations de type I (figure 6) qui peuvent être incarnées dans un espace de plongement sous la forme de zones de forte densité locale. Chaque signature est associée à un point Pi,t après plongement par la méthode des délais [ 72]:

(12)

i variant de 0 au nombre de pixels du volume spatio-temporel affecté par la fumée. l(xi,yi,t) est la luminance du pixel (xi,yi) au temps t, dt est le délai d'échantillonnage et dp=Dt/dt=16 est la dimension de plongement choisie. Ce choix a été fait après avoir calculé la dimension de corrélation des signaux de fumée, qui varie entre 6 et 8, suivant le pixel considéré dans l'enveloppe. La figure 17 montre un signal représentatif de la variation de luminance d'un tel pixel.

Fig. 17. Signal formé par l'évolution du niveau de gris d'un pixel de l'enveloppe d'une source de fumée

Pour éviter la formation de concentrations locales de points causées par des pixels stables ou peu affectés, seuls les segments temporels Pi,t dont les différences de luminance extrèmes excèdent un certain seuil sont plongés. Les rangs fractals fr(i) de tous les points calculés sont chainés ensemble par le calcul des fonctions af(i) et bf(i) pour tous les indices i des points. Les séquences de points qui sont les mieux corrélées au sens du rang fractal sont par définition les séquences pour laquelle la fonction d'isolement Is(i) est minimale. Pour simplifier l'extraction des séquences corrélées, nous avons introduit un paramètre arbitrairement choisi Dseq=20, qui quantifie le nombre de points par séquence.

Fig. 18. Fonction d'isolement Is(i) d'un nuage de 8000 points obtenu par plongement temporel d'une séquence de 100 images consécutives de la même fumée.

La fonction d'isolement de la figure 18 a été calculée pour 100 images consécutives de la même fumée. Elle montre en première approximation l'existence de deux types I et II de minimum local qui se distinguent par leur magnitude, le type II représentant un ensemble de minima secondaires entre deux minima de type I. Des résultats relatifs aux deux types sont présentés. La séquence A correspond au minimum le plus accentué de toutes les séquences, et la séquence B correspond à un minimum secondaire représentatif de type II.

Fig. 19. Segments temporels des séquences A et B.

Les séquences A et B (figure 19) sont identifiées par l'index du premier segment de chaque séquence. Les coordonnées spatio-temporelles des segments de chaque séquence étant connues, les points correspondant sont placés sur un graphique qui représente la distance parcourue en fonction du temps (figure 20). La fumée étudiée étant principalement orientée le long de l'axe x, cette distance est en fait la projection horizontale selon cet axe. Les lignes droites qui sont inscrites sur ce graphe et qui mettent en évidence l'alignement des points ont été calculées par une méthode de recherche de maximum de l'histogramme des pentes associées aux couples de points de la même séquence. Cet alignement révèle une vitesse constante de propagation des bouffées correspondantes.

Fig. 20 L'alignement des points correspondant aux séquences A (carrés) et B (triangles) met en évidence le phénomène de propagation qui est à l'origine des séquences corrélées

Le temps origine de cette propagation peut être identifié par un pic sur un histogramme temporel, qui permet de distinguer les différentes séquences temporelles. On remarque la dispersion de certains points associés à la séquence B, qui s'explique par des corrélations beaucoup mois étroites que dans le cas de la séquence A beaucoup plus accentuée. Cette dernière séquence mélange des points appartenant à deux bouffées successives qui se succèdent dans le temps. Ce mélange est du au fait que ces bouffées se ressemblent, le même scénario se répétant à la source. On peut cependant procéder à une séparation des corrélations des types (1) et (2) par discrimination temporelle.

En observant bien la succession des segments de chaque séquence sur la figure 19, on remarque que certains peuvent nettement diverger de l'allure moyenne de la séquence. Cet effet s'explique d'une part par les sauts d'échelle propres à la z-curve et d'autre part par le fait qu'il est inévitable que deux points très proches dans l'espace puissent accessoirement être distants sur la chaîne d'un nombre indéterminé de points, ceci se produisant lorsqu'ils sont situés de part et d'autre de la frontière d'un hypercube de grande taille. Cette observation montre la limite de la méthode du plongement fractal, qu'aucun choix de courbe fractale plus appropriée ne permet d'éviter totalement. Cependant, les résultats présentés montrent que cet effet reste acceptable dans la mesure où il est relativement peu fréquent et ne fait pas obstacle à l'accumulation des points d'un même voisinage dans la même séquence de la chaîne. Cependant, il est tout à fait possible qu'un voisinage unique puisse produire plusieurs séquences distinctes. Remarquons que ce phénomène d'éparpillement d'une structure locale en plusieurs parties ou voisinages existe déjà à cause du plongement temporel sous la forme d'un éparpillement de phases.

2.4 La caractérisation de l'état cérébral

Du point de vue du génie de la perception, et en particulier du point de vue de la modélisation des percepts dynamiques par plongement d'informations sensibles dans un espace de phases, une caractérisation de l'état cérébral est intéressante parce que liée à la possibilité de discernement entre un état cérébral attentif ou actif, d'un état au contraire relaché ou passif, qui joue un rôle sur la précision du percept. Le sujet d'étude qui s'impose pour un telle caractérisation, mais surtout par son intérêt clinique, est le sommeil humain. Avec le Docteur REY, Maître de Conférence et Praticien Hospitalier à Marseille, nous avons montré que le calcul de la dimension de corrélation D2 de l'EEG permettait de reconstituer fidèlement l'hypnogramme d'une nuit de sommeil d'un patient [8]. La figure 21 illustre le calcul de D2, qui permet de mettre en évidence plus d'informations qu'un simple hypnogramme ne le permettrait. En particulier, on remarque l'aspect progressif de l'endormissement qui contraste avec l'aspect au contraire très rapide du réveil. Notons que ces observations ne peuvent être des artefacts provenant de la largeur de la fenêtre de calcul (1000 points) qui est de l'ordre de 15 secondes, c'est à dire très faible en comparaison avec la durée de la nuit (7 heures).

D'un point de vue technologique, le seul caractère inventif de ce calcul réside dans sa rapidité qui permet de l'effectuer en temps réel d'enregistrement. Il possède essentiellement un intérêt clinique, qui se traduit par des résultats non seulement pour l'étude du sommeil, mais aussi pour celle de l'épilepsie.

 Fig. 21 Variations de la dimension de corrélation durant sept heures d'enregistrement d'une nuit de sommeil, mettant en évidence deux phases de sommeil profond (D2 ~ 4)

Le calcul de D2 a également permis au Dr REY de caractériser les évolutions dynamiques d'une crise d'épilepsie, afin de permettre une meilleure identification de la zone épileptogène [11]. Il a enfin confirmé par différentes analyses pratiquées à partir d'électrodes intra-craniennes (c'est à dire placées dans différentes régions du cerveau) que ce calcul permettait l'évaluation du degré d'activité de la région concernée [3], confirmant ainsi le fait que ce type d'analyse donne une mesure de la complexité de la tache cognitive en cours dans la dite région. Cette mesure reste cependant difficile à positionner dans un cadre théorique adéquat, dans la mesure où le paramètre calculé est susceptible de varier de façon artefactuelle, et où il suppose l'existence dans chaque fenêtre de calcul d'un seul état homogène du signal, dont la complexité peut être quantifiée à l'aide d'une portion d'EEG.

La littérature contient de nombreux travaux relatifs aux non linéarités observées dans le signal EEG, et certains auteurs y ont vu [63] une justification de la pertinence du calcul de la dimension de corrélation, censée quantifier la dimension fractale de l'attracteur reconstruit à partir du signal. Mais l'EEG n'apparaît que partiellement chaotique et ce point de vue est très discuté.

Si la valeur absolue de la dimension de corrélation apparaît de ce point de vue comme une approximation grossière et même une mesure aléatoire, l'étude de ses variations temporelles relatives n'en présente pas moins un réel intérêt, dans la mesure où elle sont occasionnées par de réels changements d'état du signal EEG. La quantification que nous faisons de la dimension de corrélation du signal EEG relève donc plutôt de l'analyse des corrélations effectivement transportées par le signal EEG, et a relativement peu de lien avec une dimension fractale.

Il reste cependant à situer le cadre de cette analyse de façon plus rigoureuse, ce qui ne peut se faire à notre avis qu'à travers la prise en compte des corrélations entre différents signaux EEG, en particulier pour une meilleure identification des sources qui sont à l'origine des variations asynchrones de l'état cérébral, qui témoignent d'une activité propagée dans le cerveau. La transposition de notre analyse par plongement fractal des sources de fumées à l'analyse de l'EEG multi-voies, que nous avons commencé et qui est illustrée par la figure 14, possède donc un aspect prometteur dans ce cens.

fig. 22. Le Fractospectromètre EEG (ici 2 voies et 3 électrodes) est un outil d'évaluation de l'éveil d'un patient qui peut être utilisé en réanimation pour optimiser le degré d'anesthésiant à administrer.

En 1997, nous avons déposé un brevet pour protéger un appareil d'analyse de l'EEG (figure 22) qui applique la méthode du plongement fractal pour le calcul de la dimension de corrélation. Nous avons préalablement vérifié que cette dernière pouvait être calculée correctement en ne prenant en compte qu'un faible pourcentage de couples de points ou segments temporels corrélés, identifiés par chaînage fractal. Il s'agit de calculer la limite:

(13)

où C(e) est l’intégrale de corrélation définie comme la probabilité que deux points sur l’attracteur soient à une distance inférieure à e . C(e) est estimée par :

(14)

est la fonction de Heaviside définie par = 0 pour et = 1 pour . D’après (7) on peut écrire :

(15)

à condition que e soit une puissance de deux (e = 2s). On se propose d’exploiter cette inégalité dans le but de limiter les calculs de distance à ceux qui sont vraiment nécessaires, en l’occurence les distances inférieures à un certain seuil e0, qui quantifie l'échelle d'observation, et qui peut être ajusté de manière un conserver un effectif suffisant d’échelles dans C(e), en l’occurence les seules exclusivement utiles pour le passage à la limite e->0 dans l’expression (13). L’avantage de cette sélection est de rendre le temps de calcul de D2 rapide et surtout très peu dépendant du nombre de points, sans pour autant diminuer la précision. Si l'on considère:

(16)

et les suites af(i) et bf(i) qui permettent de calculer directement pour chaque point Mi les plus grands et plus petits entiers li et mi tels que :

et (17)

A l’aide des li - mi opérations suivantes : et on peut calculer l'intégrale de corrélation uniquement à l'intérieur de voisinages le long de la chaîne:

(18)

avec dans la pratique des expressions pour li et mi qui sont calculées pour chaque nouveau point Mi à partir de leurs valeurs précédentes li-1 et mi-1 :

et (19)

 où x et y sont incrémentés à partir de 0 pour faire " glisser " les extrémités de la fenêtre de voisinage afin de respecter l’inégalité (17). Il existe d'autres versions de ce calcul qui donne des résultats proches, par exemple en travaillant dans un voisinage de taille variable mais à nombre de voisins constant. Quelque soit l'algorithme, le temps de calcul est considérablement amélioré par l'utilisation d'un calcul qui opère à partir du chaînage fractal des points pour identifier directement un voisinage.

  Fig. 23. Le calcul de la dimension de corrélation à partir de couples de points voisins par chainage fractal continue de fournir une très bonne estimation de la pente à l'origine de l'intégrale de corrélation

 Les résultats obtenus avec cette nouvelle méthode sont très peu différents du calcul par la méthode de Gassberger-Procaccia, précédemment employée. En particulier, pour les enregistrements étudiés (nuits de sommeil et crises d'épilepsie) les évolutions de D2 restent les mêmes, et la valeur absolue de la dimension (égale à la pente de la double flèche sur la figure 23) reste stable, contrairement à ce que l'on obtient lorsqu'on effectue le calcul à partir de couples de points choisis au hasard. Nous avons en effet comparé le calcul de D2 par la méthode présentée sur 10% des points avec un calcul de D2 sur le même pourcentage de points, l'ensemble des voisins de chaque point considéré étant choisi au hasard dans l'échantillon, au lieu d'être extrait des véritables voisins sur la chaîne.

 

Fig. 24. Variations de D2 durant une transition de phase d'un sommeil profond à un sommeil léger

 La figure 24 montre le résultat de ce calcul appliqué à une portion de l'enregistrement du sommeil de la figure 21, cette portion correspondant à sa deuxième transition de sommeil profond à sommeil léger. On remarque que la courbe (en rouge) calculée avec l'économie de points réalisée par plongement fractal suit très bien la courbe (en bleue) calculée avec la méthode de Grassberger-Procaccia, alors qu'une économie de points équivalente mais aléatoire contribue à baisser très sensiblement d'environ 0.5 la valeur de D2. Cette baisse est due à une perte de linéarité de l'intégrale de corrélation (fig 23) due à un nombre insuffisant de couples de points dans les faibles échelles.

  2.5 L'analyse des mouvements oculaires

2.5.1 Le Vidéonystagmographe ULMER

Le Vidéonystagmographe ou VNG ULMER est un appareil d'exploration des vertiges et des troubles de l'équilibre, que nous avons développé dans notre laboratoire en collaboration avec le Docteur Ulmer, spécialiste des explorations ORL, attaché à l'Hopital Universitaire Nord de Marseille. Il est commercialisé depuis 1993 par la société Synapsys, créée à la suite à l'obtention d'une licence CNRS. Il se décline en plusieurs versions qui en sont des extensions, comme le VOGUE (voir figure 26), le VNG 3D (voir 2.5.2) ou le VOM (voir 2.5.3).

Fig. 25. Images de l'oeil éclairé par deux diodes en lumière proche-infrarouge (0.85 microns)

Le principe du VNG consiste à éclairer l'œil en lumière proche-infrarouge (figure 25), ce qui permet l'usage de caméras CCD dont la sensibilité déborde en dehors du spectre visible. L'œil est ainsi "vu par la caméra" alors que le patient reste dans l'obscurité, laquelle est nécessaire à l'étude des mouvements oculaires réflexes qui sont alors générés uniquement par le système vestibulaire, sensible aux mouvements de tête mais aussi à d'autres sources de stimulations, notamment thermiques. L'examen Vidéonystagmographique consiste à faire l'analyse du nystagmus, mouvement oculaire composé de phases lentes (de poursuite) et de saccades (de rattrapage), pour mesurer différentes réponses oculaires réflexes à des stimulations vestibulaires thermiques [17] ou mécaniques [13], et également des réponses réflexes et volontaires à des stimulations visuelles [15]. Le VNG peut utiliser différents types de capteurs (figure 26), suivant l'examen effectué.

 

Le VNS : obscurité

Le VOGUE : vision dégagée

Fig. 26. Les deux principaux capteurs du Vidéonystagmographe (VNG ULMER)

La détection du mouvement de la pupille n'est pas un problème difficile en traitement d'images, lorsque la pupille n'est pas affectée par différents parasites qui contribuent à la masquer ou à parasiter cette détection (figure 28). Parmi les différents appareils présentés dans ce mémoire, le VNG est le seul qui corresponde à une avancée purement technologique, dans laquelle la recherche n'a joué qu'un rôle secondaire. L'obstacle technologique était la puissance de calcul nécessaire pour le calcul des mouvements oculaires en temps réel. La fréquence d'échantillonnage étant de 25 Hz, vitesse minimale pouvoir analyser sur le plan clinique les saccades oculaires, la difficulté réside dans le bon compromis à trouver entre un algorithme suffisamment rapide d'une part, et une précision dans le calcul suffisamment élevée (voir figure 27).

Fig. 27. Les deux principaux algorithmes de détection du centre pupillaire

(barycentre à gauche, contour à droite)

L'algorithme de barycentre est très rapide mais très imprécis. Il se caractérise par le fait que toutes les zones sombres de l’image autres que la pupille contribuent à fausser le calcul. L'algorithme le plus précis, mais de programmation délicate à cause de la prise en compte des niveaux de gris nécessaire à la précision (1/4 degré), consiste à décomposer l'image en contours et à rechercher la pupille à l'aide d'une caractérisation mettant en jeu sa forme circulaire et la présence de forts contrastes sur ses bords inférieurs et latéraux. L'utilisation d'un algorithme de ce type, optimisé par l'auteur à l'aide de méthodes non publiées pour des raisons évidentes, a été déterminant pour la faisabilité du VNG.

La recherche pour l'amélioration du Vidéonystagmographe doit s'attacher aux difficultés du système actuel, qui résulte d'un pourcentage important d'explorations réalisées dans des conditions de mesure très imprécises et parfois complètement faussées par la présence d'artefacts de différentes origines, illustrés par la figure 28.

a) reflet au bord de la pupille

b) pupille partagée par un cheveu

c) maquillage

d) fermeture palpébrale

Fig.28. Les 4 principales sources d'artefacts et imprécisions du VNG, qui nécessitent pour être contournées une recherche portant sur la caractérisation de scènes dynamiques complexes partiellement occultées

 Si le VNG utilise encore actuellement un procédé purement technologique, il aura besoin à l'avenir d'une recherche pointue permettant de résoudre ces différents artefacts. Les solutions envisagées font intervenir l'apprentissage des formes via la recherche de leurs attracteurs les plus stables, et la mise en œuvre de réseaux de neurones de même architecture que celui employé pour le vidéomètre oculaire (voir 2.5.3).

2.5.2.Le Vidéonystagmographe torsionnel (VNG 3D)

Dans certaines conditions où le mouvement rotatoire de la tête ou de la scène entre en jeu, l'œil peut avoir un mouvement de torsion qui consiste en une rotation du globe oculaire autour d'un axe orienté dans le sens du regard. Les muscles oculaires retiennent ce mouvement qui ne peut avoir généralement qu'une amplitude de plus ou moins 20 degrés. Ce mouvement de rotation peut être observé visuellement grâce aux hétérogénéités et taches iriennes qui semblent tourner autour de la pupille. Sa détection est rendue délicate par l'insuffisance des contrastes, la taille petite et la forme variable suivant les individus de ces hétérogénéités. Elles sont spécifiques à chaque individu, et seule une caractérisation heuristique d'une portion suffisamment globale de l'iris peut permettre de saisir son mouvement de rotation. Une difficulté supplémentaire qui la rend délicate est l'incontournable correction de non linéarité (figure 19) qu'il faut effectuer pour prendre en compte le biais résultant de l'immobilité de la caméra.

Fig. 29. La correction de non linéarité est rendue complexe dans le cas du mouvement torsionnel (axes de références angulaires non orthogonaux)

La présence simultanée des difficultés de détection des hétérogénéités iriennes, de nécessaire et complexe correction de non linéarité en trois dimensions, et de certains des artefacts cités précédemment et difficiles à éviter même dans le cas d'un sujet très discipliné, fait de la détection et du calcul du mouvement torsionnel de l'œil un problème extrèmement ardu. La solution que nous avons adopté, après avoir utilisé de nombreux algorithmes, empruntés en partie à la littérature, est celle de la reconnaissance irienne par réseau de neurones (figure 10).

Figure 30. Masques utilisés pour le positionnement des neurones dans l'iris permettant l'apprentissage du mouvement torsionnel de l'œil

L'utilisation d'un réseau de neurones dans un contexte où la contrainte de rapidité est délicate (détection en temps réel à 25 images par seconde) nécessite une architecture suffisamment simple et peu gourmande en interconnexions. Elle demande également un certain soin apporté aux réglages manuels effectués par l'utilisateur, qui doit préciser la zone où sont placés les neurones qui vont servir à mémoriser la signature de l'iris. La figure 30 montre les quatre principaux ajustements qui doivent être effectués avant la phase d'apprentissage. Deux seuils horizontaux permettent d'écarter de cette zone les cils ainsi que le cantus inférieur, et deux rayons de cercle positionnent la couronne de l'iris, suffisamment loin de la pupille et du blanc de l'œil.

L'apprentissage est supervisé de la façon suivante: quelques dizaines d'images sont accumulées pendant quelques secondes, pendant lesquelles des mouvements oculaires peuvent avoir lieu à condition d'être purement horizontaux ou verticaux. Le réseau se forme avec des interconnexions limitées à celles qui correspondent à un angle de rotation nul. A l'issue de cette phase, l'image oculaire moyenne pour cet angle origine est soumise à plusieurs dizaines de rotations (60 dans notre calcul), et les interconnexions sont créées connaissant les angles et par conséquent les neurones de l'une des couches.

Le réseau utilisé est un perceptron à deux couches, illustré dans le chapitre précédent sur la figure 10. Les neurones de la première couche sont des neurones de position, qui viennent se placer sur des zones de fort gradient de l'iris en position d'origine. Ces neurones restent fixes lorsque l'iris est en rotation, mais leurs interconnexions avec la couche supérieure détermine leur situation variable en fonction de l'angle de rotation, neutre ou excitatrice suivant la présence ou non d'une hétérogénéité à l'issue de cette rotation.

Le mécanisme de décharge des neurones de position vers les neurones angulaires est illustré par la figure 31, qui représente ici de façon simpliste la situation qui place un neurone de position en face d'une irrégularité ou tache irienne. En réalité, l'ensemble des pixels appartenant à un certain voisinage d'un neurone de position est pris en compte dans le calcul, qui compare une combinaison arithmétique (comportant des combinaisons linéaires avec valeurs absolues de différences) des niveaux de gris de ce voisinage à un seuil permettant de déterminer si le neurone est en état neutre ou excité. Pour améliorer cet algorithme qui ne donne pas entièrement satisfaction, on travaille actuellement sur une méthode d'identication de texture locale par plongement fractal, que nous n'exposerons pas ici, à la demande de l'industriel exploitant la licence CNRS.

Fig. 31. Mécanisme de décharge des neurones de position vers les neurones angulaires

Lorsqu'un neurone de position se trouve en position neutre, aucune connexion avec la seconde couche n'est activée. Lorsqu'à l'issue d'une rotation, il se retrouve en position excitatrice, une décharge neuronale a lieu, qui signale à tous les neurones angulaires concernés qu'il existe une probabilité pour que l'iris ait tourné de chaque angle correspondant. Sachant que le long d'un arc irien, un neurone de position peut rencontrer en moyenne une fois sur 5 environ une hétérogénéité par rotation, pour 60 neurones angulaires on peut en déduire un nombre d'interconnexions par neurone de position de l'ordre de la douzaine, ce qui limite les temps de calcul.

Compte tenu de la présence en sortie du réseau de nombreux angles possibles pondérés chacun par des probabilités, Le perceptron utilisé doit être calibré de manière à proposer une valeur angulaire correcte en sortie. La courbe de calibration est issue de la phase d'apprentissage, et l'expérience montre qu'elle devient linaire pour un nombre suffisant d'interconnexions, de l'ordre de quelques dizaines de milliers. Nous recherchons actuellement des méthodes qui permettent une recalibration automatique continue dans le temps, avec une évolution dynamique des poids synaptiques du réseau, justifiée par les difficultés énoncées précédemment, notamment artefacts et non linéarités.

2.5.3.Le Vidéomètre oculaire (VOM)

Le Vidéomètre oculaire est une extension du Vidéonystagmographe, faisant l'objet d'un brevet CNRS international [12], qui permet de mesurer les mouvements œil / tête par analyse simultanée des images de l'œil et du décor environnant, les images du décor étant saisies grâce à une caméra supplémentaire orientée tête bêche par rapport à la caméra oculaire (figure 32).

Fig. 32. Le capteur du Vidéomètre oculaire inclut une caméra externe de décor

Le principe du calcul des mouvements de tête repose sur l'hypothèse que celle-ci évolue dans un espace relativement restreint (patient mobile sur une chaise fixe par exemple), ce qui permet de considérer le décor comme une scène contenant des objets de référence qui sont fixes en première approximation. L'utilisation d'un grand angle pour la caméra de scène, compris entre 120 et 180°, rend cette approximation tout à fait acceptable, et en particulier atténue fortement les divergences angulaires pouvant résulter d'un éloignement variable des objets.

Grâce au procédé de plongement fractal des objets décrit plus loin au 2.6, les objets du décor sont appris puis reconnus automatiquement en temps réel à 25 Hz. Le VOM peut reconnaître plusieurs objets, et apprendre plusieurs nouveaux objets. Chaque objet est identifié par un contour plus ou moins contrasté. Lorsque le VOM découvre un nouveau décor, il apprend les nouveaux objets et mémorise leur position avec une précision d'autant plus grande que la tête aura tourné plus lentement. Lorsque qu'il redécouvre ces objets pour la deuxième fois, il les reconnaît quelque soit la vitesse de rotation de la tête. Un décor complet, comme celui d'un cabinet médical, peut ainsi être analysé puis mémorisé sur ordinateur.

Le VOM utilise ainsi une nouvelle technologie de traitement d'images qui est l'application directe du plongement fractal. Cette méthode permet de créer dynamiquement une architecture de réseau de neurones mathématiques, à la fois chaînés et interconnectés. Chaque objet du décor étant un contour instable, complexe, inconnu par avance et mal défini (figure 33), il est pris en charge par un ensemble de neurones dont les connexions s'établissent pendant un apprentissage initial, puis se modifient à chaque fois que l'objet est reconnu par la caméra. L'évolution des poids synaptiques permet de mieux accrocher les objets utiles et de rejeter les objets nuisibles, par exemple les objets en mouvement ou trop faiblement contrastés. Dans une version plus récente, le VOM utilise un réseau de neurones dynamique dont les neurones sont perpétuellement renouvelés (créés ou détruits). L'avantage technologique de ce procédé d'analyse est l'exploitation de la complexité du décor comme un avantage, au lieu de la subir comme génératrice de bruits ou d'artefacts. 

 

Fig. 33. Succession d'images consécutives analysées par le VOM montrant l'instabilité de certains objets caractérisés par leurs contours

L'utilisation du Vidéomètre suscite un certain nombre de réflexions qu'il est intéressant de rapporter ici, avant d'en considérer les aspects méthodologiques, dans la mesure où elle mettent en évidence le couplage étroit qui existe entre cette nouvelle technologie de perception visuelle, et les mécanismes qui sont à l'œuvre dans notre propre cortex visuel. Le patient équipé du VOM explore en effet à peu près la même scène que la caméra de scène, l'analyse informatique par réseaux de neurones artificiels des objets de la scène étant à rapprocher de notre propre analyse visuelle de cette scène. Lorsque cette dernière se déplace, elle génère un réflexe opto-cinétique dont la qualification de réflexe est discutée et souvent considérée comme ambiguë par les spécialistes en Otoneurologie [16], car elle peut être mise en compétition avec le mécanisme de poursuite volontaire.

N'ayant pas encore publié de résultats sur l'utilisation du VOM, nous allons rapporter ici de façon anecdotique, une expérience que nous pouvons cependant reproduire à la demande du lecteur, dans le cadre d'une démonstration annexée à ce mémoire. Nous avons remarqué en développant cet appareil une illustration de l'ambiguité qui vient d'être citée, au niveau du mécanisme d'apprentissage des objets par le VOM, qui bien qu'il ne soit qu'un logiciel, est déjà instructif sur cet aspect. En effet, nous avons remarqué que le réseau de neurones mathématiques utilisé pouvait adopter un comportement situé entre deux extrêmes, variables suivant l'hétérogénéité du décor. En deux mots, nous pouvons voir le VOM alternativement "faire de la poursuite", ou de la détection de mouvement sans cible privilégiée.

Dans le premier cas, nous avons un décor plutôt pauvre mais fortement contrasté avec un, deux ou trois objets très bien identifiés par le VOM, du fait de leurs contrastes qui rendent stables les contours de leurs formes. Par exemple un écran d'ordinateur observé une fois équipé du capteur, et une feuille de papier posée sur un bureau. Ces objets étant stables et parfois bien contrastés, le réseau de neurones les privilégie au dépend de tous les autres objets de la scène, dont il calcule des positions sans les utiliser à cause du poids synaptique trop faible qui leur est attribué. Dans ce cas, il est clair que le VOM "fait de la poursuite" des deux objets en question.

Dans le deuxième cas, nous avons un décor plutôt riche mais faiblement contrasté avec une myriade d'objets instables comme par exemple des zones mal délimitées qui renvoient localement différents reflets de lumière diffuse. Il peut y en avoir des centaines, plus que le logiciel du VOM doué de peu de mémoire ne saurait en analyser. Dans ce cas, les poids synaptiques des meilleurs objets du réseau se répartissent en grand nombre de façon assez homogène, car aucun objet n'est vraiment mieux défini qu'un autre. Il n'y a donc plus de poursuite possible, mais une espèce de traitement de bas niveau qui compense la mauvaise identification de la position de chaque objet par un effet de masse du réseau, lequel calcule grâce à cet effet une bonne valeur de la position de la caméra, en quelque sorte une moyenne.

La conséquence de cette alternative peut être observée par le mouvement de "nystagmus informatique" sous jacent au calcul de la position de la caméra. Si l'on remplace la sortie du réseau par une sortie calculée à partir de la position du meilleur objet de la scène qu'elle explore, c'est à dire celui de poids synaptique le plus élevé à un instant donné, on s'apercoit que dans le premier cas, les saccades sont rares mais régulières, alors que dans le deuxième cas, les saccades sont fréquentes et très irrégulières.

Nous avons proposé à nos collaborateurs médecins de nous inspirer dans un proche avenir de cette observation pour tester une identification éventuellement plus objective du degré de comportement réflexe qui préside au dit réflexe opto-cinétique. Cette méthode consisterait par exemple à calculer la dimension de complexité (ou de corrélation) du nystagmus, pour vérifier une hypothèse selon laquelle plus cette dimension est élevée, plus le réflexe prend le pas sur la poursuite, et inversement.

  Fig. 34. Saccades horizontales de rattrapage de l'œil (en rouge) générées par des mouvements rapides de la tête enregistrés (en bleu) par le Vidéomètre oculaire

 La figure 34 illustre enfin la propriété essentielle du Vidéomètre: le calcul des mouvements rapides de la caméra, lors de déplacements angulaires très importants (ici environ 90°) qui modifient totalement la structure de la scène. Ce calcul est rendu possible grâce à la reconnaissance de la pièce d'examen dont la structure est mémorisée durant une phase d'apprentissage, ou même en continu. Une étude reste nécessaire pour déterminer le meilleur compromis entre apprentissage initial et apprentissage continu, ainsi que le moyen de le traduire par des paramètres influant sur la vitesse de modification des poids synaptiques du réseau.

La figure 34 montre également l'intérêt clinique du Vidéomètre, à travers l'étude des mouvements brusques de la tête et des saccades de rattrapage de l'œil, dont l'exploration détaillée est suspectée comme pouvant apporter des informations de discrimination droite / gauche du vestibule atteint, qu'à l'heure actuelle seule la coûteuse méthode de stimulation calorique de cet organe permet d'effectuer.

  2.6 La reconnaissance de scènes dynamiques complexes

 Cette section décrit le procédé de reconnaissance de scènes dynamiques complexes par plongement fractal de contours qui est utilisé par le Vidéomètre oculaire. Ce procédé s'accomplit en trois étapes:

  1. Les objets de la scène sont caractérisés par leurs contours
  2. Les contours sont transformés en points dont les coordonnées quantifient des critères de forme
  3. Les points sont plongés puis enchaînés selon la méthode décrite au 2.2

La première étape met en œuvre des algorithmes de traitement d'images relativement classiques, mais optimisés selon un procédé analogue à celui du VNG (2.4.1). La troisième étape met en œuvre le procédé de plongement et de chaînage fractal. La seconde étape est essentielle, et elle se différencie du plongement fractal de type temporel utilisés pour la détection des feux de forêt et le calcul de la dimension de corrélation de l'EEG, par le fait qu'elle met en œuvre un plongement spatial des contours. La dynamique des objets est prise en compte au niveau des deux premières couches du réseau de neurones utilisé pour le VOM, comme nous le verrons plus loin.

Figure 35. transformation d'un contour en point multi-critères

Les critères utilisés pour construire à partir d'un contour un point dans un espace multidimensionnel sont choisis pour leur stabilité relative (figure 35) et les coordonnées sont normalisées de manière à former un nombre à 8 bits compris entre 0 et 256. La méthode de plongement fractal permettant l'usage d'un espace de dimension élevée (dimension 16 pour les deux autres types), nous utilisons des critères plus ou moins redondants, cette redondance étant justifiée par l'instabilité et surtout la complexité des formes pouvant être successivement prises par le même objet. Après avoir essayé différentes dimensions de plongement, nous nous sommes empiriquement stabilisé autour de la valeur 8 comme dimension de plongement spatial. Les critères les plus utilisés sont le diamètre moyen, l'aplatissement, le périmètre, la surface, l'irrégularité (rapport périmètre / diamètre), le niveau de gris central ou moyen, le contraste moyen du contour, les écartements minimal et maximal, …

La redondance du choix de critères dépendants tels que la surface et le périmètre permet d'effectuer une meilleure caractérisation de formes mal saisies, pour différentes raisons et par exemple des effets d'optique dus à une variation de luminosité de l'ensemble de la scène, ou à un déplacement rapide de la caméra qui rend les objets flous par un temps d'exposition trop long. Le périmètre d'un contour peut ainsi être augmenté sans que sa surface ne soit modifiée. Inversement, des critères a priori indépendants tels que le diamètre et l'applatissement peuvent devenir dépendants pour les mêmes raisons. La figure 36 illustre ces différentes observations.

Fig. 36. Disparition de l'indépendance entre diamètre et applatissement (à gauche), et disparition de dépendance de la surface et du périmètre (à droite)

Les variations de luminosité peuvent être dues à des scènes extérieures, ou simplement à l'auto-iris de la caméra qui s'adapte aux variations de luminance de la portion filmée de la scène dues au mouvement de la caméra. Ce mouvement qui peut être également latéral engendre des différences de point de vue qui modifient la forme des contours. Une autre source importante d'instabilité des contours provient de la manière dont ils sont saisis par un algorithme qui ne peut prendre en compte des seuils de gradient ou de niveau de gris adaptés à chaque objet. La conséquence de cet état de fait, qui crée d'importantes difficultés aux algorithmes de reconnaissance de forme plus classiques, est que chaque objet est associé à un ensemble complexe de contours plus ou moins différents les uns des autres, et qu'aucun d'entre eux n'est suffisant ou fiable pour le caractériser convenablement.

Dans l'espace de plongement de dimension 8 choisi, ce phénomène engendre un nuage de points pour chaque objet de la scène. Nous faisons appel à la notion d'attracteur, pour qualifier la structure d'ensemble correspondant aux zones denses de ce nuage. L'attracteur sert à caractériser l'objet, en lieu et place de son nuage. Il peut être composé de plusieurs voisinages denses, par exemple dans le cas d'une porte d'entrée illustrée par la figure 37.

Fig. 37. Les deux voisinages attracteurs d'une porte d'entrée dont la poignée génère un reflet instable

Dans le cas d'un objet idéal, l'attracteur de l'objet se limite à un seul voisinage dense dans l'espace de plongement. Dans le cas réel qui nous intéresse, un objet quelconque pourra comporter un ou plusieurs voisinages plus ou moins denses, accompagnés de points éparpillés qui ne doivent pas être pris en compte, sous peine de parasiter la reconnaissance en remplissant excessivement l'espace de plongement, faisant apparaître ainsi des ambiguïtés entre différents objets instables. La notion d'attracteur permet de limiter la caractérisation de l'objet à ses voisinages denses, en laissant de coté les points éparpillés qu'il génère.

Soient x1,… xd les coordonnées d'un point représentant une forme, d la dimension de plongement (nombre de critères), e le nombre de bits de résolution, xi(j) les bits de chacune des coordonnées. Rappelons l'équation (8) du plongement fractal qui consiste à calculer la valeur:

(8)

puis à introduire son identificateur dans la chaîne de points passant par tous les points plongés. La caractérisation d'une scène dynamique complexe consiste alors à gérer cette chaîne d'identificateurs fractals pour associer à chaque voisinage de la chaîne un neurone correspondant à un attracteur d'objet.

La méthode présentée jusqu'à présent permet d'effectuer la reconnaissance d'un objet à partir d'un seul contour et par conséquent d'une seule image, à condition qu'il n'y ait pas de conflit c'est à dire d'intersection commune entre attracteurs appartenant à des objets différents. Dans la réalité, ces intersections existent, et sont souvent dues à l'effet parasite qu'exercent des objets instables de grande taille sur d'autres objets, comme l'illustre la figure 38.

 

Fig. 38. Effet parasite d'un attracteur sur un autre, engendrant une difficulté à discerner l'objet générateur d'un voisinage dense.

Les ambiguités entre objets peuvent être acceptées via une caractérisation probabiliste, mais celle-ci est peu recommandable dans la pratique, car les conditions dans lesquelles elles apparaissent peuvent être cumulatives et sont surtout méconnues. La grande diversité potentielle des scènes dans lesquelles un appareil tel que le VOM peut être amené à devoir fonctionner nous oblige à prévoir une caractérisation plus fine, ou tout au moins capable de s'auto-évaluer en fournissant soit un résultat certain, soit pas de résultat du tout. Rappelons que 25 mesures par seconde sont nécessaires, et qu'il importe que suffisamment d'objets soient simultanément présents pour fournir une mesure. Nous avons vu au 1.10 (figure 9) comment peuvent être créés dynamiquement des neurones à partir d'un attracteur. Nous allons voir maintenant comment les deux premières couches d'un réseau de neurones peuvent être créées et surtout rafraichies dynamiquement, de façon à résoudre les dites ambiguités.

 

Fig. 39. La prise en compte de fréquences temporelles d'attracteurs par les poids synaptiques permet de lever les ambiguités relatives à deux objets i et j partageant les mêmes attracteurs

La figure 39 montre tout d'abord comment le nombre de connexions d'un neurone d'une couche à l'autre, qui traduit la densité d'un attracteur, peut permettre de diminuer de façon probabiliste l'ambiguité entre attracteurs partagés par des objets distincts. Mais elle traduit surtout comment la dynamique des objets contribue à faciliter la prise de décision pour résoudre cette ambiguité: la fréquence d'usage d'une connexion contribue à renforcer son poids synaptique, et inversement. La probabilité d'ambiguité tend en conséquence vers 0 à mesure que le temps augmente. Le facteur temps intervient donc pour éliminer ces ambiguités, via l'usage d'un seuil de probabilité adéquat. Concrètement, les objets faciles à reconnaître son reconnus instantanément par le réseau, et les objets plus difficiles à reconnaître génèrent un temps d'attente. Pendant ce temps, ils ne parasitent pas les autres, et lorsque la scène devient trop floue, trop pauvre ou trop perturbée, le VOM est ralenti.

Dans le cas d'une scène comportant de trop petits objets, la reconnaissance des formes par la méthode des critères est insuffisante, et aucune autre méthode ne peut combler cette insuffisance. Il est alors nécessaire de coupler les objets deux à deux pour fabriquer des objets composés, dont les grandeurs sont suffisamment élevées pour avoir une bonne résolution des critères. Une autre méthode consiste à rajouter une troisième couche intermédiaire au réseau de neurones, cette couche gérant les voisinages entre objets (figure 40).

Fig. 40 . Réseau de neurones dynamique à 3 couches pour la caractérisation d'une scène complexe

Pour avoir des informations plus récentes sur les applications du plongement fractal