Machine Learning: Procesarea limbajului natural

InfoTitularTematicaBibliografieEvaluareObiective

Număr de credite: 7
Cod: AMR0152
Predare: lucrare practică: 3h
Limba de predare: Română
Tip: curs principal, semestrul 4, Masteratul Analiza Datelor Complexe+
Erasmus:

Daniela Manate
cadru asociat
Globant
E-mail: daniela.manate@ubbcluj.ro

Normalizarea textului:

  • 1. Procesarea Limbajului Natural: Prezentare Generala;
  • 2. Normalizarea Textului;
  • 3. Complexitatea Lexicala;

Reprezentarea textului

  • 4. Reprezentarea Textului: Bag of Words;
  • 5. Reprezentarea Textului: Word2Vec;
  • 6. Reprezentarea Textului: FastText;

Analiza de sentiment

  • 7. Analiza de Sentiment: Obiective și tipuri;
  • 8. Analiza de Sentiment: Abordarea bazata pe Machine Learning;
  • 9. Analiza de Sentiment: Abordarea bazata pe Lexicon;
  • 10. Analiza de Sentiment: Reprezentări ale transformărilor a codificări bidirecționale (BERT)
  • 11. Analiza de Sentiment: Abordarea bazată pe BERT;

Modelarea tematică

  • 12. Modelarea tematică: gruparea în clase latente a textului.
  • Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta Harshit Surana, 2020. Practical Natural Language Processing: A Comprehensive Guide to Building Real-World NLP Systems. Beijing and Cambridge: O’Reilly Media.
  • Benjamin Bengfort, Rebecca Bilbro, Tony Ojeda, 2018. Applied Text Analysis with Python: Enabling Language-Aware Data Products with Machine Learning. Beijing and Cambridge: O’Reilly Media.
  • Steven Bird, Ewan Klein, Edward Loper, 2009. Natural Language Processing with Python. Beijing and Cambridge: O’Reilly Media.

Metode de evaluare

  • 50% examen scris;
  • 30% teme pentru acasă;
  • 20% prezenţă curs.

Criterii de evaluare:

  • examen scris
  • 3 teme pentru acasă care acoperă temele majore de la curs și laborator
  • prezență pentru minim 10 cursuri și laboratoare.

Obiective generale

  • Cunoașterea conceptelor principale ale procesării limbajului natural și familiarizarea cu librăriile din Python necesare procesării limbajului.

Obiective specifice

  • Capacitatea de a normaliza limbajul: stemming și lemmatization;
  • Capacitatea de a reprezenta textul;
  • Realizarea unui analize de sentiment, atât supervizată, cât și nesupervizată;
  • Modelarea tematică.