Număr de credite: 8
Cod: AMR0161
Predare: 4h de lucrări practice.
Limba de predare: Română
Tip: curs principal, semestrul 4, Masteratul Analiza Datelor Complexe
1. Procesarea Limbajului Natural: Prezentare Generală
- Introducere în Procesarea Limbajului Natural (NLP) și explorarea domeniului său vast.
- Această temă oferă o imagine de ansamblu a importanței NLP în analiza textelor și comunicarea computer-uman.
2. Normalizarea Textului
- Detalierea procesului de normalizare a textului, care implică transformarea textului într-o formă standardizată.
- Se explorează tehnici precum eliminarea semnelor de punctuație, conversia literelor la minuscule și eliminarea stop-word-urilor pentru pregătirea textelor pentru analiza ulterioară.
3. Complexitatea Lexicală
- Discuția asupra complexității lexicale a limbajului natural și importanța său în analiza textelor.
- Se acoperă concepte precum diversitatea lexicală, mărimile vocabularului și frecvența cuvintelor cheie în texte.
Partea 2: Reprezentarea Textului
3. Reprezentarea Textului: Bag of Words
- Prezentarea metodei "Bag of Words" (BoW) pentru reprezentarea textelor, care transformă texte în vectori numerici.
- Se explorează cum BoW poate fi folosit pentru a construi matrice de termeni și documente pentru analiza textuală.
4. Reprezentarea Textului: Word2Vec
- Introducerea modelului Word2Vec, care permite reprezentarea cuvintelor sub forma unor vectori semantici.
- Se explică cum acest model capturează semnificații și relații între cuvinte în texte.
5. Reprezentarea Textului: FastText
- Prezentarea modelului FastText, o extensie a Word2Vec care include și informații despre subcuvinte.
- Se examinează cum FastText poate îmbunătăți reprezentarea textuală pentru analize mai precise.
Partea 3: Analiza de Sentiment
6. Analiza de Sentiment: Obiective și Tipuri
- Definirea analizei de sentiment și explorarea obiectivelor sale.
- Se discută tipurile diferite de analiză de sentiment, cum ar fi sentimentul pozitiv, negativ și neutru.
7. Analiza de Sentiment: Abordarea bazată pe Machine Learning
- Prezentarea metodelor bazate pe machine learning în analiza de sentiment, care implică antrenarea modelelor pentru a clasifica sentimentul din texte.
- Se acoperă algoritmi precum Naive Bayes sau Support Vector Machines pentru acest scop.
8. Analiza de Sentiment: Abordarea bazată pe Lexicon
- Explorarea metodelor bazate pe lexicon în analiza de sentiment, unde sentimentul este determinat pe baza dicționarelor de cuvinte și a scorurilor asociate cu ele.
- Se discută despre metodele de lexicon-based sentiment analysis și utilizarea lor în NLP.
9. Analiza de Sentiment: Reprezentări ale Transformărilor Bidirecționale ale Codificării (BERT)
- Introducerea conceptului de transformări bidirecționale ale codificării (BERT)
- Ilustrarea modului în care această tehnologie avansată poate îmbunătăți analiza de sentiment.
- Se explică cum BERT poate captura contextul și ambiguitatea în limbajul natural.
Partea 4: Modelarea Tematică
10. Modelarea Tematică: Gruparea în Clase Latente a Textului
- Se prezintă modelării tematice, care implică gruparea textelor în clase latente în funcție de conținutul și semantica lor.
- Se discută despre cum aceasta poate ajuta la înțelegerea temelor și subiectelor din colecții mari de texte.
Coroborarea conținuturilor disciplinei cu așteptările reprezentanților comunității epistemice, asociațiilor profesionale și angajatorilor reprezentativi din domeniul aferent programului
- Îmbunătățirea eficienței operaționale: În sectorul serviciilor avansate pentru afaceri și în industria prelucrătoare, comunicarea și gestionarea informațiilor sunt esențiale. Procesarea limbajului natural (NLP) poate ajuta la automatizarea multor procese care implică texte și comunicări scrise. De exemplu, poate fi folosit pentru a extrage informații relevante din contracte, rapoarte sau corespondență.
- Dezvoltarea de produse și servicii inovatoare: Cursul oferă competențele necesare pentru dezvoltarea de produse și servicii inovatoare care utilizează NLP. Aceasta poate include chatbot-uri pentru serviciul clienți, sisteme de procesare automată a documentelor sau sisteme de analiză a sentimentelor pentru a înțelege feedback-ul clienților.
- Analiza și extragerea de cunoștințe din texte: Companiile din ambele sectoare se confruntă cu o cantitate mare de texte și documente. NLP poate ajuta la analiza și extragerea de cunoștințe valoroase din aceste texte, facilitând luarea deciziilor și gestionarea informațiilor.
- Personalizarea și îmbunătățirea experienței clienților: În sectorul serviciilor, personalizarea și îmbunătățirea experienței clienților sunt esențiale pentru retenția clienților. NLP poate ajuta la personalizarea ofertelor și la înțelegerea nevoilor clienților prin analiza feedback-ului și a interacțiunilor cu aceștia.
-50% examen scris;
-30% teme pentru acasă;
-20% prezenţă curs.
Obiective generale:
- Scopul principal al cursului "Machine Learning: Procesarea limbajului natural" este de a dezvolta competențele studenților în domeniul procesării limbajului natural (NLP) și de a-i familiariza cu utilizarea librăriilor din Python necesare pentru analiza și procesarea textelor în acest context.
Obiective specifice:
- Dezvoltarea abilităților de normalizare a limbajului prin tehnici precum stemming și lemmatization; Studenții vor învăța să reducă cuvintele la formele lor de bază pentru analiza eficientă a textelor.
- Dezvoltarea competențelor în reprezentarea textului sub formă de vectori numerici, utilizând tehnici precum "Bag of Words" (BoW), Word2Vec și FastText: Studenții vor învăța cum să transforme textele într-o formă potrivită pentru
- Dezvoltarea abilităților de realizare a analizei de sentiment, atât supervizate, cât și nesupervizate, pentru evaluarea sentimentelor din texte: studenții vor învăța să modeleze tematic textele, pentru a identifica subiectele și tendințele cheie în seturile de date textuale.
Acest curs se studiază în următoarele programe:
B-dul 21 Dec. 1989 Nr. 128, Cluj-Napoca 400604
+ 40-264-42.46.74
+ 40-264-41.99.58
+ 40-264-42.46.74