Nhảy đến nội dung chính

Mô Hình Truy Xuất Thông Tin Boolean (Boolean Retrieval Model)

1. Mục Tiêu Bài Học

  • Hiểu được khái niệm và cách hoạt động của mô hình Boolean

  • Sử dụng được các phép toán logic (AND, OR, NOT) để truy vấn văn bản

  • Biết ưu và nhược điểm của mô hình này

  • Thực hành với ví dụ minh họa cụ thể

2. Khái Niệm Cơ Bản

Boolean Retrieval Model là một mô hình truy xuất thông tin trong đó:

  • Tài liệu và truy vấn đều được biểu diễn bằng các tập hợp từ (terms).

  • Người dùng sử dụng các phép toán logic để tìm tài liệu phù hợp.

  • Kết quả truy vấn là danh sách các tài liệu thỏa mãn điều kiện logic đó.

3. Các Phép Toán Logic Cơ Bản

Phép Toán Ý Nghĩa Ví dụ Truy Vấn
AND Cả hai từ đều phải xuất hiện máy AND học
OR Một trong hai từ xuất hiện máy OR học
NOT Loại bỏ tài liệu chứa từ đó máy AND NOT học
Kết hợp Dùng ngoặc để nhóm biểu thức phức tạp (máy AND học) OR AI

4. Ví Dụ Cụ Thể

Tập Tài Liệu
Tài liệu Nội dung
D1 "Tôi yêu học máy và AI"
D2 "Học sâu là một nhánh của AI"
D3 "Máy học khác với lập trình truyền thống"
D4 "Tôi học lập trình Python"

Truy Vấn 1: học AND máy

  • Phân tích:

    • Tìm các tài liệu chứa cả 2 từ: họcmáy

  • Kết quả:

    • D1 (chứa cả "học" và "máy")

    • D3 (cũng chứa cả hai)

Kết quả: D1, D3

Truy Vấn 2: AI OR Python

  • Phân tích:

    • Chỉ cần một trong hai từ xuất hiện

  • Kết quả:

    • D1, D2 (chứa "AI")

    • D4 (chứa "Python")

Kết quả: D1, D2, D4

Truy Vấn 3: học AND NOT AI

  • Phân tích:

    • Tài liệu có "học" nhưng không có "AI"

  • Kết quả:

    • D4 (có "học", không có "AI")

Kết quả: D4

5. Biểu Diễn Dưới Dạng Ma Trận Boolean

Tài liệu học máy AI Python
D1 1 1 1 0
D2 1 0 1 0
D3 1 1 0 0
D4 1 0 0 1

Truy vấn "học AND máy" ⇒ Chỉ những hàng có cả hai giá trị là 1 tại cột "học" và "máy".

6. Ưu và Nhược Điểm

Ưu điểm:

  • Đơn giản, dễ hiểu

  • Truy vấn chính xác và rõ ràng

  • Hiệu quả với các tập tài liệu nhỏ

❌ Nhược điểm:

  • Không hỗ trợ tìm kiếm mờ (fuzzy search)

  • Không xếp hạng mức độ liên quan giữa các tài liệu

  • Không linh hoạt nếu người dùng không biết chính xác từ khóa

7. Ứng Dụng Thực Tế

  • Truy vấn luật trong cơ sở dữ liệu pháp lý

  • Hệ thống quản lý tài liệu nội bộ

  • Công cụ tìm kiếm cơ bản trong ứng dụng nhỏ

8. Kết Luận

  • Boolean Retrieval là nền tảng của hệ thống tìm kiếm hiện đại

  • Dù đơn giản, nhưng nó tạo nền móng cho các mô hình nâng cao hơn như: TF-IDF, BM25, hay Vector Space Model.

  • Khi kết hợp với xử lý ngôn ngữ tự nhiên (NLP), nó trở nên mạnh mẽ hơn

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft