Apprentissage bayésien et exploration de textes

Responsable(s) : Alexandre SAIDI, Stéphane DERRODE
Cours ⋅ 10 hTD ⋅ 4 hBE ⋅ 6 h

Objectifs de la formation

On se focalisera sur la famille des méthodes bayésiennes, qui se distingue par son optimalité au sens de certains critères, par son coût réduit d’un point de vue algorithmique et par l’interprétabilité de ses résultats. Nous étudierons aussi les solutions qui s’offrent au Data Scientist lorsque l’échantillon d’apprentissage est peu important au regard du nombre de paramètres à apprendre, ou lorsque l’apprentissage doit se faire de manière non supervisée. En termes d’application, nous mettrons l’accent sur l'exploration d'un corpus textuel pour découvrir par exemple de nouveaux clients éligibles à la vente d'un service/produit, de prévoir les sentiments (avis) des clients ou comprendre les comportements qui prédisent une fraude.

Mots-clés

Théorie de la décision bayésienne, Apprentissage non supervisé, Modèles de Markov cachés, Fouille de textes, Analyse de sentiments, Chatbot, Traitement de Langues Naturelle.

Programme

  • Décision bayésienne (2h)
  • Modèle de mélange gaussien (2h)
  • Chaîne de Markov cachée (2h)
  • BE sur l’apprentissage bayésien (2h)
  • Technologies et méthodes de traitement de langues naturelles et fouille de texte (8h)
  • Restitution d’une lecture scientifique par groupe (4h)

Compétences visées

  • Sélectionner la ou les méthodes de ML adaptées à son problème de classification, en tenant compte de différents critères.
  • développer des programmes mettant en œuvre ces méthodes pour analyser ses propres données.
  • De mettre en œuvre une chaîne de traitements pour interpréter des textes (p. ex. tweet).
  • De se familiariser avec les techniques et outils modernes de fouille de texte et de lire des papiers de recherche récents sur les sujets évoqués

Contrôle des connaissances

Note = 50% savoir + 50% savoir-faire Note de savoir = 100% examen terminal Note de savoir-faire = BE text Mining (50%) + restitution d’un article scientifique (50%)