You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
BÀI TẬP ĐO LƯỜNG ĐỘ TƯƠNG TỰ CỦA TỰ CỦA TỪ (WORD SIMILARITY) DỰA TRÊN WORD EMBEDDINGS
Sinh viên đăng ký project thực hiện một trong các bài tập sau:
1. Viết chương trình đo Word Similarity sử dụng pre-trained word embeddings (thư mục word2vec) và bộ dữ liệu VSim-400 (thư mục Datasets/ViSim-400).
a) Sử dụng độ đo khoảng các cosine (Cosine Distance).
b) Thực nghiệm thêm với một số độ đo khác: Dot Product Distance, Euclidean Distance, Dice Distance, Jaccard Distance.
2. Tìm k từ gần nhất với từ w (k từ có khoảng khoảng nhỏ nhất cách từ vector biểu diễn của chúng đến vector biểu diễn của từ w).
3. Sử dụng học máy (logistic regression, multi-layer perceptron, support vector machine,...) nhận diện cặp từ có quan hệ đồng nghĩa (synonym) và trái nghĩa (antonym) sử dụng bộ dữ liệu ViCon-400 để đánh giá (thư mục Datasets/ViCon-400).