Nhảy đến nội dung chính

Mô Hình Truy Xuất Thông Tin Boolean (Boolean Retrieval Model)

1. Mục Tiêu Bài Học

  • Hiểu được khái niệm và cách hoạt động của mô hình Boolean

  • Sử dụng được các phép toán logic (AND, OR, NOT) để truy vấn văn bản

  • Biết ưu và nhược điểm của mô hình này

  • Thực hành với ví dụ minh họa cụ thể

2. Khái Niệm Cơ Bản

Boolean Retrieval Model là một mô hình truy xuất thông tin trong đó:

  • Tài liệu và truy vấn đều được biểu diễn bằng các tập hợp từ (terms).

  • Người dùng sử dụng các phép toán logic để tìm tài liệu phù hợp.

  • Kết quả truy vấn là danh sách các tài liệu thỏa mãn điều kiện logic đó.

3. Các Phép Toán Logic Cơ Bản

Phép ToánÝ NghĩaVí dụ Truy Vấn
ANDCả hai từ đều phải xuất hiệnmáy AND học
ORMột trong hai từ xuất hiệnmáy OR học
NOTLoại bỏ tài liệu chứa từ đómáy AND NOT học
Kết hợpDùng ngoặc để nhóm biểu thức phức tạp(máy AND học) OR AI

4. Ví Dụ Cụ Thể

Tập Tài Liệu
Tài liệuNội dung
D1"Tôi yêu học máy và AI"
D2"Học sâu là một nhánh của AI"
D3"Máy học khác với lập trình truyền thống"
D4"Tôi học lập trình Python"

Truy Vấn 1: học AND máy

  • Phân tích:

    • Tìm các tài liệu chứa cả 2 từ: học và máy

  • Kết quả:

    • D1 (chứa cả "học" và "máy")

    • D3 (cũng chứa cả hai)

Kết quả: D1, D3

Truy Vấn 2: AI OR Python

  • Phân tích:

    • Chỉ cần một trong hai từ xuất hiện

  • Kết quả:

    • D1, D2 (chứa "AI")

    • D4 (chứa "Python")

Kết quả: D1, D2, D4

Truy Vấn 3: học AND NOT AI

  • Phân tích:

    • Tài liệu có "học" nhưng không có "AI"

  • Kết quả:

    • D4 (có "học", không có "AI")

Kết quả: D4

5. Biểu Diễn Dưới Dạng Ma Trận Boolean

Tài liệuhọcmáyAIPython
D11110
D21010
D31100
D41001

Truy vấn "học AND máy" ⇒ Chỉ những hàng có cả hai giá trị là 1 tại cột "học" và "máy".

6. Ưu và Nhược Điểm

Ưu điểm:

  • Đơn giản, dễ hiểu

  • Truy vấn chính xác và rõ ràng

  • Hiệu quả với các tập tài liệu nhỏ

❌ Nhược điểm:

  • Không hỗ trợ tìm kiếm mờ (fuzzy search)

  • Không xếp hạng mức độ liên quan giữa các tài liệu

  • Không linh hoạt nếu người dùng không biết chính xác từ khóa

7. Ứng Dụng Thực Tế

  • Truy vấn luật trong cơ sở dữ liệu pháp lý

  • Hệ thống quản lý tài liệu nội bộ

  • Công cụ tìm kiếm cơ bản trong ứng dụng nhỏ

8. Kết Luận

  • Boolean Retrieval là nền tảng của hệ thống tìm kiếm hiện đại

  • Dù đơn giản, nhưng nó tạo nền móng cho các mô hình nâng cao hơn như: TF-IDF, BM25, hay Vector Space Model.

  • Khi kết hợp với xử lý ngôn ngữ tự nhiên (NLP), nó trở nên mạnh mẽ hơn

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft