Mô Hình Truy Xuất Thông Tin Boolean (Boolean Retrieval Model)
1. Mục Tiêu Bài Học
-
Hiểu được khái niệm và cách hoạt động của mô hình Boolean
-
Sử dụng được các phép toán logic (AND, OR, NOT) để truy vấn văn bản
-
Biết ưu và nhược điểm của mô hình này
-
Thực hành với ví dụ minh họa cụ thể
2. Khái Niệm Cơ Bản
Boolean Retrieval Model là một mô hình truy xuất thông tin trong đó:
-
Tài liệu và truy vấn đều được biểu diễn bằng các tập hợp từ (terms).
-
Người dùng sử dụng các phép toán logic để tìm tài liệu phù hợp.
-
Kết quả truy vấn là danh sách các tài liệu thỏa mãn điều kiện logic đó.
3. Các Phép Toán Logic Cơ Bản
Phép Toán | Ý Nghĩa | Ví dụ Truy Vấn |
---|---|---|
AND | Cả hai từ đều phải xuất hiện | máy AND học |
OR | Một trong hai từ xuất hiện | máy OR học |
NOT | Loại bỏ tài liệu chứa từ đó | máy AND NOT học |
Kết hợp | Dùng ngoặc để nhóm biểu thức phức tạp | (máy AND học) OR AI |
4. Ví Dụ Cụ Thể
Tập Tài Liệu
Tài liệu | Nội dung |
---|---|
D1 | "Tôi yêu học máy và AI" |
D2 | "Học sâu là một nhánh của AI" |
D3 | "Máy học khác với lập trình truyền thống" |
D4 | "Tôi học lập trình Python" |
Truy Vấn 1: học AND máy
-
Phân tích:
-
Tìm các tài liệu chứa cả 2 từ:
học
vàmáy
-
-
Kết quả:
-
D1 (chứa cả "học" và "máy")
-
D3 (cũng chứa cả hai)
-
Kết quả: D1, D3
Truy Vấn 2: AI OR Python
-
Phân tích:
-
Chỉ cần một trong hai từ xuất hiện
-
-
Kết quả:
-
D1, D2 (chứa "AI")
-
D4 (chứa "Python")
-
Kết quả: D1, D2, D4
Truy Vấn 3: học AND NOT AI
-
Phân tích:
-
Tài liệu có "học" nhưng không có "AI"
-
-
Kết quả:
-
D4 (có "học", không có "AI")
-
Kết quả: D4
5. Biểu Diễn Dưới Dạng Ma Trận Boolean
Tài liệu | học | máy | AI | Python |
---|---|---|---|---|
D1 | 1 | 1 | 1 | 0 |
D2 | 1 | 0 | 1 | 0 |
D3 | 1 | 1 | 0 | 0 |
D4 | 1 | 0 | 0 | 1 |
Truy vấn "học AND máy"
⇒ Chỉ những hàng có cả hai giá trị là 1 tại cột "học" và "máy".
6. Ưu và Nhược Điểm
Ưu điểm:
-
Đơn giản, dễ hiểu
-
Truy vấn chính xác và rõ ràng
-
Hiệu quả với các tập tài liệu nhỏ
❌ Nhược điểm:
-
Không hỗ trợ tìm kiếm mờ (fuzzy search)
-
Không xếp hạng mức độ liên quan giữa các tài liệu
-
Không linh hoạt nếu người dùng không biết chính xác từ khóa
7. Ứng Dụng Thực Tế
-
Truy vấn luật trong cơ sở dữ liệu pháp lý
-
Hệ thống quản lý tài liệu nội bộ
-
Công cụ tìm kiếm cơ bản trong ứng dụng nhỏ
8. Kết Luận
-
Boolean Retrieval là nền tảng của hệ thống tìm kiếm hiện đại
-
Dù đơn giản, nhưng nó tạo nền móng cho các mô hình nâng cao hơn như: TF-IDF, BM25, hay Vector Space Model.
-
Khi kết hợp với xử lý ngôn ngữ tự nhiên (NLP), nó trở nên mạnh mẽ hơn
Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft
Không có bình luận