image accueil du logo de la rubrique
Vous êtes ici : MAAMI 2012 » Présentations » Thème 2 : Introduction à l’apprentissage

Thème 2 : Introduction à l’apprentissage

D 27 avril 2012    

Modélisation et contrôle des véhicules aérospatiaux (par Caroline Bérard) / Les différentes facettes de l’apprentissage (par Manuel Samuelides), / L’apprentissage par renforcement (par Emmanuel Rachelson)


Modélisation et contrôle des véhicules aérospatiaux (par Caroline Bérard et Daniel Alazard)

Les domaines aéronautique et spatial ont toujours été un domaine d’application privilégié des techniques de l’automatique et particulièrement démonstratifs des possibilités qu’offre cette discipline : pilote automatique d’avion, pilotage des lanceurs, systèmes de contrôle d’attitude et d’orbite de satellites… qui peuvent se résumer de la façon suivante : Comment imposer une trajectoire (un état final) au véhicule malgré des méconnaissances et des incertitudes sur le comportement dynamique du véhicule (par exemple les masses/centrage/inertie) et son environnement (par exemple la turbulence). La solution repose bien évidemment sur la notion de commande en boucle fermée et le découpage du problème global en sous-problèmes séparés en fréquence (boucle de guidage, boucle de pilotage). Le savoir-faire de l’automaticien repose alors en grande partie sur ses connaissances transverses dans toutes les sciences de l’ingénieur et son habileté à trouver le modèle juste nécessaire représentatif des phénomènes dynamiques à contrôler afin de synthétiser un correcteur (robuste) qui devra supporter les méconnaissances et les interactions avec les autres boucles (ou les autres sous-systèmes).

L’objectif de cette présentation est de montrer comment conjuguer les disciplines de l’ingénieurs pour modéliser, analyser et contrôler les phénomènes dynamiques complexes qui gouvernent le comportement des véhicules aéronautiques et spatiaux en s’appuyant sur quelques applications et supports expérimentaux :

• Effet gyroscopique : application au contrôle d’attitude des satellites agiles,

• Découplage des systèmes couplés : application au contrôle des aéronefs ,

• Structures flexibles : application au contrôle des véhicules aérospatiaux « insuffisamment » rigides,

******************************************************

Les différentes facettes de l’apprentissage (par Manuel Samuelides),

L’apprentissage tire ses origines des vieux rêves de l’homme de créer des êtres intelligents (Marahal de Prague, Frankestein …). Les progrès de la psychologie et des neurosciences ont inspiré à plusieurs moments-clés les mathématiciens et les informaticiens qui ont pratiqué conjointement des activités de modélisation et de synthèse de systèmes intelligents (Wiener, Von Neumann, Rosenblatt, reconnaissance de la parole, lecture automatique, recherche sur internet).

Après les apports de la logique computationnelle des années 70 (systèmes experts), l’apprentissage est généralement reconnu depuis les années 80 comme un développement des statistiques. On distingue trois types d’apprentissage :

-  apprentissage supervisé proche de la reconnaissance de formes où le réseaux neuronaux ont fait preuve de leur efficacité et qui se rapproche de la régression en statistique éventuellement rendue adaptative,

-  apprentissage non supervisé proche de l’analyse de données et des statistiques non paramétriques (analyse en composantes principales, recherche de prototypes)

-  l’apprentissage par renforcement, plus original, plus proche de l‘apprentissage biologique (réflexe pavlovien, règle de Hebb) connaît actuellement un développement considérable en robotique et en recherche d’information sur les réseaux numériques. Il fera l’objet de la conférence suivante.

******************************************************

L’apprentissage par renforcement (par Emmanuel Rachelson)

Le choix de nos actions à un instant donné n’a bien souvent pas comme but de maximiser un gain immédiat mais plutôt de s’inscrire dans un comportement global qui tend à optimiser un retour cumulé sur le long terme. L’apprentissage naturel de ces comportements se fait par un processus mixte d’analyse de l’environnement et d’essais-erreurs, qui nous permet, sans jamais écrire formellement de modèle de notre environnement, d’y adopter des comportements adaptés. L’apprentissage par renforcement prend ses sources dans cette inspiration biologique et vise à formaliser et comprendre les processus d’apprentissage de décision séquentielle, où le but n’est pas de représenter un concept (apprentissage supervisé) ou d’extraire une structure des données (apprentissage non-supervisé) mais bien de décider d’un plan d’action séquentiel.

Depuis les travaux fondateurs de Sutton ou Watkins dans les années 80 (eux mêmes inspirés par Bellman, Samuel ou Holland dans les années 50), le domaine a pris une importance considérable, fournissant des réponses nouvelles à des problèmes d’automatique (en commande optimale stochastique), d’intelligence artificielle (en résolution des jeux) ou de recherche opérationnelle (en gestion adaptative de stocks par exemple). Ce petit cours va tenter l’exercice difficile de couvrir les différentes problématiques de l’apprentissage par renforcement, d’établir une taxonomie et un panorama de ses méthodes, en passant par des exemples concrets et pratiques. Nous aborderons ainsi les hypothèses probabilistes sur lesquels s’appuie la théorie de l’apprentissage par renforcement, puis distinguerons les deux problèmes clés, dits de "prédiction" et de "contrôle" de façon ludique..

Dans la même rubrique


Thème 1 : Eléments de probabilités Introduction aux probabilités et aux statistiques : De la pratique aux modèles généraux, / Conditionnement, fusion (...)



jeudi 26 avril 2012
Thème 4 : Optimisation stochastique et optimisation globale, application à la gestion du trafic aérien Bases probabilistes de l’optimisation stochastique (par Emmanuel Zenou) / Optimisation sans dérivées : de Nelder-Mead (...)



mercredi 18 mai 2022
Thème 3 : Assimilation de données et application à la prévision météorologique (Olivier Pannekoucke et Olivier Thual) Assimilation de données et prévision (par Olivier Thual), / Analyse en composantes principales en météorologie et en (...)



jeudi 26 avril 2012

Rechercher