“Hàng Rào An Toàn” Cho AI - Guardrails

Guardrails là gì?

Guardrails (tạm dịch: hàng rào an toàn) là các cơ chế, quy tắc, hoặc giới hạn được thiết kế để kiểm soát hành vi của AI, đảm bảo AI hoạt động đúng mục đích, an toàn, và đáng tin cậy.

Chúng giống như "lan can" trên đường cao tốc, ngăn AI vượt khỏi phạm vi mong muốn – dù AI có khả năng suy diễn linh hoạt hoặc tự động xử lý nhiều bước.

Tại sao cần Guardrails?

Khi sử dụng AI agent hoặc LLM (mô hình ngôn ngữ lớn) trong các hệ thống tự động như:

Gửi email tự động
Trò chuyện với khách hàng
Gọi API bên ngoài
Quyết định lựa chọn công cụ

Thì việc thiếu kiểm soát có thể gây ra:

Tình huống	Rủi ro
Agent tự tạo nội dung độc hại	Vi phạm đạo đức/hành vi
Agent gửi email không phù hợp	Ảnh hưởng danh tiếng doanh nghiệp
Agent gọi API sai	Gây lỗi hệ thống hoặc tốn chi phí
Agent trả lời sai lệch	Gây hiểu nhầm hoặc sai thông tin

Vì vậy, Guardrails giúp định hướng và giới hạn hành vi AI một cách có kiểm soát.

Guardrails hoạt động như thế nào?

Một số kỹ thuật hoặc chiến lược để thiết lập Guardrails gồm:

1. Instructions rõ ràng (hướng dẫn vai trò cụ thể)

Ví dụ:

"Bạn là Giám đốc bán hàng. Không bao giờ tự tạo email. Luôn sử dụng các công cụ được cung cấp."

→ Hạn chế AI không tự viết email, buộc phải sử dụng tool hợp lệ.

2. Tách biệt giữa "Tool" và "Handoff"

Loại	Vai trò
Tool (công cụ)	Gọi API, thực hiện hành động cụ thể
Handoff (bàn giao)	Chuyển quyền điều khiển sang agent khác

Giúp đảm bảo rõ ràng từng phần trong quy trình được kiểm soát và có thể audit.

Trace & quan sát (theo dõi agent)

Sử dụng tính năng trace để theo dõi:

Agent nào đã làm gì?
Dùng công cụ nào?
Thời điểm bàn giao ra sao?

Điều này giúp kiểm tra và khôi phục lại hành vi nếu có sai sót.

Các kiểu Guardrails phổ biến

Loại Guardrails	Mô tả
Ràng buộc logic	Nếu không hài lòng với kết quả, thử lại bằng công cụ khác
Luật đạo đức / an toàn	Không thảo luận về chủ đề nhạy cảm hoặc cá nhân hóa quá mức
Giới hạn hành động	Chỉ được phép gửi email sau khi kiểm tra toàn bộ tools
Theo dõi chi tiết (trace)	Kiểm tra lại toàn bộ hành trình trước khi gửi

Bài học thực tế từ Sales Automation

Trong ví dụ "From Function Calls to Agent Autonomy":

AI sales manager được hướng dẫn cụ thể không tự tạo email.
AI phải dùng đủ 3 công cụ tạo email trước khi chọn cái tốt nhất.
Sau đó handoff sang Email Manager để gửi.
Mọi hành động đều được trace và kiểm soát.

→ Đây là mô hình agent có Guardrails rõ ràng.

Thực hành đề xuất

Bài tập 1: Xác định Guardrails trong đoạn sau

“"Bạn là Giám đốc bán hàng. Không bao giờ tự tạo email. Luôn sử dụng các công cụ được cung cấp."”

Câu hỏi:

Guardrails nào đang được áp dụng?
Mục tiêu của guardrails đó là gì?

Bài tập 2: Viết Guardrails cho Agent Tuyển dụng

Hãy viết các hướng dẫn guardrails cho một AI agent tuyển dụng, với các quy tắc như:

Luôn hỏi ứng viên 3 câu hỏi trước khi gửi thông tin cho quản lý
Không tự quyết định nhận ứng viên

Bài tập 3: Quan sát hành vi agent qua Trace

Dựa trên dữ liệu trace của ví dụ trên:

Agent nào thực hiện những bước nào?
Handoff xảy ra ở đâu?
Guardrails đã giúp kiểm soát hành vi nào?

Guardrails là linh hồn của hệ thống AI có trách nhiệm. Chúng:

Giữ AI hoạt động đúng vai trò
Tránh sai lệch, vi phạm đạo đức hoặc kỹ thuật
Tạo cơ sở để mở rộng agent một cách an toàn

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Gen AI và AI Agents

AI Agents và Multi-Agents

Minh hoạ một hệ thống Multi-Agent trong nhà máy sản xuất cơ khí

Thị Trường AI Agents: Cơ Hội, Chi Phí và Xu Hướng Ứng Dụng Trong Doanh Nghiệp

Lợi Ích Chính Của AI Agent Trong Doanh Nghiệp Hiện Đại

Nguyên tắc triển khai AI agent

Các trường hợp ứng dụng của AI Agent trong đời sống

Làm Thế Nào Để Xây Dựng Kế Hoạch Giới Thiệu AI Agents Trong Công Ty Của Bạn?

Những thách thức triển khai AI Agents

Yêu cầu pháp lý (Regulatory) trong xây dựng AI Agents:

Sự hiện hữu của AI Agents

Xây Dựng AI Agents Chuyên Nghiệp với LangGraph

Bài học thực chiến với ví dụ chi tiết

Giới thiệu

Assistant và Agent

HumanMessage – Tin nhắn từ người dùng

AIMessage – Tin nhắn phản hồi từ AI

SystemMessage - Thiết lập ngữ cảnh

ToolMessage - Kết quả phản hồi từ một công cụ (tool)

ToolCall - Mô hình ngôn ngữ gọi đến một công cụ

Giới thiệu về LangGraph

Vì sao LangGraph ra đời và Graph có ý nghĩa gì

Lập trình khai báo(declarative) và Lập trình mệnh lệnh(imperative)

So sánh LangGraph và LangChain

Tác nhân điều phối(Agentic) trong ứng dụng mô hình ngôn ngữ lớn (LLMs)

Cấp độ hành vi của tác nhân(Agentic) trong ứng dụng LLM

LangGraph Studio, giới thiệu, cài đặt và cách dùng

LangGraph: Framework Xây Dựng Ứng Dụng LLM Dựa Trên Agent + Graph

5 Khái Niệm Trụ Cột

Giới thiệu Poetry

Cơ bản về GraphBuilder

Xây dựng một ứng dụng đơn giản (graph) quyết định xem người dùng nên uống cà phê hay trà

Ứng dụng LangGraph cơ bản với chatbot và công cụ

Định tuyến(Router) trong LangGraph

So sánh Router và Node trong LangGraph

Hiểu rõ hơn về add_conditional_edges

Bài Thực Hành Router Trong LangGraph

Giới thiệu về ReAct Architecture

Thực hành – Node LLM quyết định bước tiếp theo

Kết nối các công cụ (tools) bằng bind_tools

Xây dựng một ứng dụng quyết định xem có nên trò chuyện bằng LLM hay sử dụng công cụ

Tóm tắt chương

Giới Thiệu

Thêm Bộ Nhớ Ngắn Hạn vào Agent trong LangGraph

Thực hành bộ nhớ ngắn hạn

Định dạng state schema trong LangGraph từ TypeDict sang Pydantic

Cách Tùy Chỉnh Cập Nhật Trạng Thái bằng Reducers

Public State, Private State và Multiple State Schemas trong LangGraph

Thực hành Public State and Private State

Giới thiệu

Tối Ưu Chi Phí và Quản Lý Bộ Nhớ Khi Xây Dựng Ứng Dụng AI Với OpenAI

Tối ưu hóa bộ nhớ ngắn hạn bằng cách tóm tắt hội thoại

Giới thiệu về Bộ nhớ Ngoài (Persistent Memory) với LangGraph

Tóm tắt chương

Giới thiệu

Streaming và Human-in-the-loop trong LangGraph

Breakpoints và Human-in-the-loop trong LangGraph

Giới thiệu

3 Bước với OpenAI Agents SKD

OpenAI Agent SDK vs. LangGraph

Agent, Runner, and Trace Classes

Vibe Coding - Lập Trình Theo Cảm Hứng với AI

Core Concepts for AI Development

Tạo 3 agent bán hàng với phong cách giao tiếp khác nhau

Tạo 3 Agents bán hàng theo kiểu luồng (streaming)

Agent trong OpenAI Agent SDK để gọi dữ liệu sản phẩm từ một API thật(Tool)

AI Sales Agents sử dụng OpenAI Agent SDK, SendGrid để gửi email chào hàng

Xây Dựng Hệ Thống Sales Agent Thông Minh với OpenAI SDK

Agent as Tool và Handoff

Bài tập thực hành: Tự động hóa bán hàng với OpenAI Agent SDK

“Hàng Rào An Toàn” Cho AI - Guardrails

Thực hành Xây dựng AI Agent “Sales Manager” với Guardrails

Giới Thiệu Dịch vụ web-search

Tạo Ứng Dụng Agent Tự Nghiên Cứu

Xây dựng "Planner Agent" – Trợ lý lập kế hoạch tìm kiếm thông minh

Bài Thực Hành: "Trợ Lý Lập Kế Hoạch Marketing"

BÀI THỰC HÀNH: Xây dựng Deep Research Agent và gửi kết quả qua Email

“Hàng Rào An Toàn” Cho AI - Guardrails

Guardrails là gì?

Tại sao cần Guardrails?