# Mô Hình Truy Xuất Thông Tin Boolean (Boolean Retrieval Model) ### **1. Mục Tiêu Bài Học** - Hiểu được khái niệm và cách hoạt động của mô hình Boolean - Sử dụng được các phép toán logic (AND, OR, NOT) để truy vấn văn bản - Biết ưu và nhược điểm của mô hình này - Thực hành với ví dụ minh họa cụ thể ### **2. Khái Niệm Cơ Bản** **Boolean Retrieval Model** là một mô hình truy xuất thông tin trong đó: - Tài liệu và truy vấn đều được biểu diễn bằng các tập hợp từ (terms). - Người dùng sử dụng các phép **toán logic** để tìm tài liệu phù hợp. - Kết quả truy vấn là **danh sách các tài liệu** thỏa mãn điều kiện logic đó. #### **3. Các Phép Toán Logic Cơ Bản**
**Phép Toán****Ý Nghĩa****Ví dụ Truy Vấn**
ANDCả hai từ đều phải xuất hiện`máy AND học`
ORMột trong hai từ xuất hiện`máy OR học`
NOTLoại bỏ tài liệu chứa từ đó`máy AND NOT học`
Kết hợpDùng ngoặc để nhóm biểu thức phức tạp`(máy AND học) OR AI`
### **4. Ví Dụ Cụ Thể** ##### **Tập Tài Liệu**
**Tài liệu****Nội dung**
D1"Tôi yêu học máy và AI"
D2"Học sâu là một nhánh của AI"
D3"Máy học khác với lập trình truyền thống"
D4"Tôi học lập trình Python"
**Truy Vấn 1: `học AND máy`** - Phân tích: - Tìm các tài liệu chứa cả 2 từ: `học` và `máy` - Kết quả: - D1 (chứa cả "học" và "máy") - D3 (cũng chứa cả hai) **Kết quả: D1, D3** **Truy Vấn 2: `AI OR Python`** - Phân tích: - Chỉ cần một trong hai từ xuất hiện - Kết quả: - D1, D2 (chứa "AI") - D4 (chứa "Python") **Kết quả: D1, D2, D4** **Truy Vấn 3: `học AND NOT AI`** - Phân tích: - Tài liệu có "học" nhưng **không có "AI"** - Kết quả: - D4 (có "học", không có "AI") **Kết quả: D4** #### ****5. Biểu Diễn Dưới Dạng Ma Trận Boolean****
**Tài liệu****học****máy****AI****Python**
D11110
D21010
D31100
D41001
Truy vấn `"học AND máy"` ⇒ Chỉ những hàng có cả hai giá trị là 1 tại cột "học" và "máy". #### **6. Ưu và Nhược Điểm** #### Ưu điểm: - Đơn giản, dễ hiểu - Truy vấn chính xác và rõ ràng - Hiệu quả với các tập tài liệu nhỏ #### ❌ Nhược điểm: - Không hỗ trợ tìm kiếm mờ (fuzzy search) - Không xếp hạng mức độ liên quan giữa các tài liệu - Không linh hoạt nếu người dùng không biết chính xác từ khóa #### **7. Ứng Dụng Thực Tế** - Truy vấn luật trong cơ sở dữ liệu pháp lý - Hệ thống quản lý tài liệu nội bộ - Công cụ tìm kiếm cơ bản trong ứng dụng nhỏ ### **8. Kết Luận** - Boolean Retrieval là nền tảng của hệ thống tìm kiếm hiện đại - Dù đơn giản, nhưng nó tạo nền móng cho các mô hình nâng cao hơn như: TF-IDF, BM25, hay Vector Space Model. - Khi kết hợp với xử lý ngôn ngữ tự nhiên (NLP), nó trở nên mạnh mẽ hơn **Tác giả: Đỗ Ngọc Tú** **Công Ty Phần Mềm [VHTSoft](https://vhtsoft.com/ "Công Ty Phần Mềm VHTSoft")**