# “Hàng Rào An Toàn” Cho AI - Guardrails
#### **Guardrails là gì?**
**Guardrails** (tạm dịch: *hàng rào an toàn*) là các cơ chế, quy tắc, hoặc giới hạn **được thiết kế để kiểm soát hành vi của AI**, đảm bảo AI hoạt động **đúng mục đích, an toàn, và đáng tin cậy**.
Chúng giống như "lan can" trên đường cao tốc, ngăn AI vượt khỏi phạm vi mong muốn – dù AI có khả năng suy diễn linh hoạt hoặc tự động xử lý nhiều bước.
#### **Tại sao cần Guardrails?**
Khi sử dụng **AI agent** hoặc **LLM (mô hình ngôn ngữ lớn)** trong các hệ thống tự động như:
- Gửi email tự động
- Trò chuyện với khách hàng
- Gọi API bên ngoài
- Quyết định lựa chọn công cụ
Thì **việc thiếu kiểm soát** có thể gây ra:
**Tình huống** | **Rủi ro** |
---|
Agent tự tạo nội dung độc hại | Vi phạm đạo đức/hành vi |
Agent gửi email không phù hợp | Ảnh hưởng danh tiếng doanh nghiệp |
Agent gọi API sai | Gây lỗi hệ thống hoặc tốn chi phí |
Agent trả lời sai lệch | Gây hiểu nhầm hoặc sai thông tin |
Vì vậy, **Guardrails giúp định hướng và giới hạn hành vi AI một cách có kiểm soát.**
#### **Guardrails hoạt động như thế nào?**
Một số **kỹ thuật hoặc chiến lược để thiết lập Guardrails** gồm:
##### 1. **Instructions rõ ràng (hướng dẫn vai trò cụ thể)**
Ví dụ:
```
"Bạn là Giám đốc bán hàng. Không bao giờ tự tạo email. Luôn sử dụng các công cụ được cung cấp."
```
→ Hạn chế AI không tự viết email, buộc phải sử dụng tool hợp lệ.
##### 2. **Tách biệt giữa "Tool" và "Handoff"**
Giúp đảm bảo rõ ràng từng phần trong quy trình được kiểm soát và có thể audit.
### **Trace & quan sát (theo dõi agent)**
Sử dụng tính năng **trace** để theo dõi:
- Agent nào đã làm gì?
- Dùng công cụ nào?
- Thời điểm bàn giao ra sao?
Điều này **giúp kiểm tra và khôi phục lại hành vi nếu có sai sót**.
#### **Các kiểu Guardrails phổ biến**
Loại Guardrails | Mô tả |
---|
**Ràng buộc logic** | Nếu không hài lòng với kết quả, thử lại bằng công cụ khác |
**Luật đạo đức / an toàn** | Không thảo luận về chủ đề nhạy cảm hoặc cá nhân hóa quá mức |
**Giới hạn hành động** | Chỉ được phép gửi email sau khi kiểm tra toàn bộ tools |
**Theo dõi chi tiết (trace)** | Kiểm tra lại toàn bộ hành trình trước khi gửi |
#### **Bài học thực tế từ Sales Automation**
Trong ví dụ "From Function Calls to Agent Autonomy":
- AI sales manager **được hướng dẫn cụ thể** không tự tạo email.
- AI **phải dùng đủ 3 công cụ tạo email trước khi chọn cái tốt nhất**.
- Sau đó **handoff sang Email Manager** để gửi.
- Mọi hành động đều được **trace và kiểm soát**.
→ Đây là mô hình agent có Guardrails rõ ràng.
#### **Thực hành đề xuất**
##### **Bài tập 1: Xác định Guardrails trong đoạn sau**
> “"Bạn là Giám đốc bán hàng. Không bao giờ tự tạo email. Luôn sử dụng các công cụ được cung cấp."”
**Câu hỏi**:
- Guardrails nào đang được áp dụng?
- Mục tiêu của guardrails đó là gì?
##### **Bài tập 2: Viết Guardrails cho Agent Tuyển dụng**
Hãy viết các hướng dẫn guardrails cho một AI agent tuyển dụng, với các quy tắc như:
- Luôn hỏi ứng viên 3 câu hỏi trước khi gửi thông tin cho quản lý
- Không tự quyết định nhận ứng viên
##### **Bài tập 3: Quan sát hành vi agent qua Trace**
Dựa trên dữ liệu trace của ví dụ trên:
- Agent nào thực hiện những bước nào?
- Handoff xảy ra ở đâu?
- Guardrails đã giúp kiểm soát hành vi nào?
Guardrails là **linh hồn của hệ thống AI có trách nhiệm**. Chúng:
Giữ AI hoạt động đúng vai trò
Tránh sai lệch, vi phạm đạo đức hoặc kỹ thuật
Tạo cơ sở để mở rộng agent một cách an toàn
**Tác giả: Đỗ Ngọc Tú**
**Công Ty Phần Mềm [VHTSoft](https://vhtsoft.com/ "Công Ty Phần Mềm VHTSoft")**