Index of /publis/slides/2017_05__CSID_PhD_comitee_at_CentraleSupelec

[ICO]NameLast modifiedSizeDescription
[PARENTDIR]Parent Directory  -  
[   ]slides_169.pdf2021-03-04 16:26 463K 
[   ]slides.pdf2021-03-04 16:26 466K 
[TXT]slides.md2021-03-04 16:26 21K 
[TXT]slides.html2021-03-04 16:26 23KCSID - 1ère année de thèse | Date : 02 mai 2017 | Par : Lilian Besson
[IMG]aggregating_bandits.png2021-03-04 16:26 247K 
[TXT]README.md2021-03-04 16:26 20K 
[   ]Makefile2021-03-04 16:26 595  
[IMG]10-30-intelligent.png2021-03-04 16:26 184K 

auteur: Lilian Besson titre: CSID - 1ère année de thèse contexte: Comité de Suivi Individuel du Doctorant institut: Équipe SCEE, IETR, CentraleSupélec, Rennes & Équipe SequeL, CRIStAL, Inria, Lille durée: 30-40 minutes école doctorale: MATISSE (Rennes) date: 2 mai 2017

langue: french

Comité de Suivi Individuel du Doctorant


Présentation personnelle

Rapidement, je suis…

Avant et maintenant…


Contexte et sujet

Historique de l'équipe SCEE sur ce sujet

Contexte thématique


Double encadrement

Avec Émilie Kaufmann, CR au CNRS travaillant à Inria Lille (équipe SequeL, laboratoire CRIStAL) :


Mon sujet


Un problème : Accès Opportuniste au Spectre

L'Accès Opportuniste au Spectre (OSA) consiste en :

C'est un problème de décision discrète, séquentiel (une décision après l'autre), et avec informations partielles, qui correspond à un problème de bandit.


Premier algorithme pour l'OSA : UCB1

L'algorithme UCB (Upper Confidence Bounds), dans sa plus simple version (UCB1, [Auer et al. 2002]) fonctionne comme ça :


Second algorithme : Thompson Sampling

"Thompson Sampling" est une approche Bayésienne :

Un algorithme historique [Thompson, 1935], très simple, mais qui marche très bien (prouvé optimal pour différents types de problème).


Quelques objectifs à partir de là

Passer au cas "multi-joueurs" :

Passer à des réseaux de type "IoT" :


Recherches en cours et collaborations (1/2)

Avec Christophe Moy (aspects radio intelligente)

Notamment afin de :

Avec Émilie Kaufmann (aspects théoriques)


Regret d'un algorithme de bandit

Le regret R_T^A sert à quantifier la perte en récompense, après T étapes, entre la meilleure solution et l'algorithme A.

Exemple de regret

Par exemple, en OSA classique, si les bras sont ordonnés par leur disponibilité, µ1 > µ_2 ≥ … ≥ µ_K, on se compare au meilleur bras µ_1, et alors : R_T^{UCB1} := µ_1 × T - ∑{t=1}^T r_{A(t)}(t), où la récompense du canal k est tirée selon sa loi : r_k(t) ~ B(µ_k).

On veut montrer des bornes :


OSA multi-joueurs

Protocole

À chaque t, chaque SU 1 ≤ j ≤ M doit :

Objectifs

Sans contrôle centralisé, ni communication entre eux :

Exemple : l'algorithme ρ^Rand[UCB1]

  1. Utiliser UCB1 pour apprendre les M meilleurs canaux.
  2. Le SU j vise le r_j ième meilleur canal (rang 1 ≤ r_j ≤ M) et plus le meilleur canal. Au début, r_j = 1.
  3. Après collision, les SU tirent un nouveau rang aléatoire r_j ~ U(1,…,M).

Regret pour l'OSA multi-joueurs ?


Recherches en cours et collaborations (2/2)

Avec Rémi Bonnefoi (autre doctorant dans l'équipe SCEE)

Nous étudions l'efficacité et la robustesse de l'utilisation d'algorithmes de bandits utilisés par de nombreux objets "intelligents" dans un réseau de type IoT.


Apprentissage dans un réseau IoT


Exemple : UCB1 et TS pour l'IoT

Performance des 2 algorithmes quand la proportion d'objets intelligents augmente (10% et 30%). La configuration optimale est vite atteinte.


Autres pistes de recherche ?

Agrégation d'algorithmes de bandit


Exemple : agrégation d'algorithmes

Regret R_T pour différents algorithmes "état de l'art", pour T = 100000 et 1000 répétitions. La courbe noire est une borne inférieure *asymptotique*. *Aggr* correspond à l'agrégation des 14 autres algorithmes.


Objectifs de publication pour 2017 et 2018

  1. Un rapport de recherche (arXiv/HAL) résumant le travail de bibliographie, d'implémentation et d'expérimentation réalisé pour mon environnement de simulation (presque terminé) et la publication en libre accès du code (pour l'instant, la documentation est déjà disponible). cf. http://banditslilian.gforge.inria.fr/

  2. Un article envoyé à la conférence européenne CrownCom 2017 (septembre, Lisbonne, Portugal) avec Rémi Bonnefoi, suivi d'une version journal étendue (déjà terminée !).

  3. Un article "maths et théorie" avec Émilie Kaufmann, sur des résultats déjà obtenus et d'autres à terminer, avec de nouvelles bornes inférieures et de meilleures bornes supérieures pour l'algorithme ρ^Rand (OSA multi-joueur décentralisé). Objectif : ICML ou COLT 2018.

  4. Un article "télécomslides" exposant l'intérêt de l'agrégation d'algorithmes de bandit pour des problèmes de radio cognitive. Objectif : fin 2017.

  5. J'aimerai aussi faire un survey sur "tous" les algorithmes de bandits, en les écrivant tous avec la même structure (initialisation, choix, récompense, etc), basé sur mon environnement de simulation. Il y en a une douzaine pour l'aspect mono-joueur (et beaucoup de variantes), et une quinzaine pour l'aspect multi-joueurs, et je les ai tous implémenté et documenté sous une même organisation logique (approche objet).


Autres activités

Mais aussi…


Autres activités (1/4) : Formations

Pour la thèse, il faut suivre des formations :

Encore beaucoup à suivre, l'an prochain…


Autres activités (2/4) : Enseignements

Par passion et pour valider mon stage d'agrégation, j'enseigne :

J'ai obtenu la même mission pour les deux prochaines années !

Note : je souhaite enseigner en prépa' après ma thèse.


Autres activités (3/4) : Projets étudiant

J'aide quelques élèves pour des projets étudiants, à CentraleSupélec, surtout pour :

Rien d'officiel ni de trop coûteux en temps pour l'instant. J'espère en faire autant l'an prochain, selon ce qu'on propose.

Un projet long, depuis octobre

Des projets courts, en janvier et février (8 semaines)

Nouveaux projets courts en mai/juin


Autres activités variées (4/4)


Conclusion & Perspectives


Conclusion & Perspectives

Une première année de thèse déjà bien avancée, avec :

Mais aussi :


Merci

À peine 7 mois de thèse.

Et beaucoup de choses à faire pour la suite…

Merci !

À l'année prochaine.