QUICK INFO: CU 2h / LAB 1h / 7.5 CREDITE
PROGRAMA ANALITICA
METODA DE EVALUARE
50% Proiect in echipa: 2-3 persoane
50% Evaluare finala-scrisa
Proiect:
- Sustinerea/predarea se face in ultima saptamana 23 aprilie (ora 14-17).
- Tema: "Dezambiguizare a sensului bazata pe cunostinte. Algoritmul lui Banerjee si Pedersen (suprapunere extinsa de glose)"
- Teoria/Bibliografie:
@ Florentina Hristea, Introducere in procesarea limbajului natural, Ed Universitatii din Bucuresti, 2010, cap 7
@ http://www.d.umn.edu/~tpederse/ (Pagina lui Ted Pedersen)
- Testarea algoritmului se face pentru
~ substantive (corpusul "line")
~ adjective (corpusul "hard")
~ verbe (corpusul "serve")
- Consultatiile pentru proiect se fac in timpul orei de laborator, marti, in intervalul orar 16:00 - 17:00, sala 313
Nota: "Corpusul line_hard_serve" se ia de pe web (vezi pagina lui Ted Pedersen).
EXAMEN
Duminica, 28 aprilie, ora 12.
Lista cu subiectele pe care le avem de pregatit pentru examen este:
- Un algoritm de dezambiguizare a sensului cuvintelor bazat pe WordNet și pe analiza sintactică de suprafață. Bibliografie: notițe + Li, Szpakowicz, Matwin. "A WordNet-based Algorithm for Word Sense Disambiguation".
- Dezambiguizare bazată pe cunoștințe. Bibliografie: notițe + carte (capitolul 7, Banerjee - Pedersen)
- Dezambiguizare supervizată a sensului cuvintelor cu modelul Bayesian naiv. Bibliografie: notițe
- Dezambiguizare nesupervizată a sensului cuvintelor cu modelul Bayesian naiv. Structura probabilistă a corpusului și estimarea parametrilor. Bibliografie: carte (capitolul 8)
- Selecția caracteristicilor. Abordarea sintactică. Bibliografie: Hristea, Colhon. "Feeding Syntactic Versus Semantic Knowledge to a Knowledge-lean Unsupervised Word Sense Disambiguation Algorithm with an Underlying Naïve Bayes Model". Abordarea semantică. Bibliografie: Hristea, Popescu, Dumitrescu. "Performing word sense disambiguation at the border between unsupervised and knowledge-based techniques"
- Caracteristici de tip n-gram pentru dezambiguizarea nesupervizată a sunsului cuvintelor bazată pe modelul Bayesian naiv. Bibliografie: Preoțiuc, Hristea. "N-gram features for unsupervised WSD".
Articolele pomenite mai sus și notițe pentru subiectul 3 se găsesc într-o arhivă în secțiunea "Files".