Nhảy đến nội dung chính

Hiểu cách hoạt động của Vector Space Model (VSM)

1. Mục tiêu bài học

Sau bài học này, bạn sẽ:

  • Hiểu được khái niệm Vector Space Model (VSM).

  • Biết cách biểu diễn văn bản dưới dạng vector.

  • Hiểu được cách đo lường độ tương đồng giữa văn bản và truy vấn.

  • Thực hành với ví dụ minh họa đơn giản bằng tiếng Việt.

2. VSM là gì?

VSM (Vector Space Model) là một mô hình toán học dùng để:

  • Biểu diễn văn bản dưới dạng vector trong không gian nhiều chiều.

  • So sánh sự tương đồng giữa các văn bản hoặc giữa truy vấn người dùng và tài liệu.

 Mỗi từ (hoặc từ gốc) sẽ là một chiều trong không gian vector, còn mỗi văn bản sẽ là một điểm trong không gian đó.

3. Cách biểu diễn văn bản bằng VSM

Các bước:
  1. Tiền xử lý văn bản:

    • Chuyển về chữ thường, loại bỏ dấu câu, stopwords, v.v.

  2. Tách từ (tokenize).

  3. Tạo tập từ vựng (vocabulary).

  4. Biểu diễn văn bản dưới dạng vector (dựa trên tần suất xuất hiện từ).

Ví dụ minh họa

Tài liệu 1:

Tôi thích ăn phở bò

Tài liệu 2:

Tôi ăn phở gà vào buổi sáng

Truy vấn:

Tôi muốn ăn phở

Tập từ vựng (Vocabulary):

["tôi", "thích", "ăn", "phở", "bò", "gà", "vào", "buổi", "sáng", "muốn"]

 Vector hóa:

TừTài liệu 1Tài liệu 2Truy vấn
tôi111
thích100
ăn111
phở111
100
010
vào010
buổi010
sáng010
muốn001

4. Tính độ tương đồng bằng cosine similarity

Công thức cosine similarity:

image.png

Kết quả nằm trong khoảng [0, 1], càng gần 1 thì càng giống nhau.

Thực hành:

So sánh truy vấn "Tôi muốn ăn phở" với:

  • Tài liệu 1 → chứa từ "ăn", "phở", "tôi" (giống nhiều).

  • Tài liệu 2 → cũng có "ăn", "phở", "tôi".

Nhưng:

  • Truy vấn có từ “muốn”, chỉ xuất hiện trong truy vấn.

  • Tài liệu 1 có “thích”, “bò”.

  • Tài liệu 2 có nhiều từ khác không liên quan.

→ Sau khi tính cosine similarity, hệ thống sẽ trả về tài liệu nào tương đồng nhất với truy vấn.

5. Ý nghĩa của VSM

Ưu điểmHạn chế
Dễ triển khaiKhông hiểu ngữ nghĩa
Có thể tính toán độ giốngKhông xử lý được từ đồng nghĩa
Phù hợp với tìm kiếm văn bảnKhông tốt khi văn bản dài quá

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft