Hoạt Động của XGBoost

MỤC TIÊU BÀI HỌC

Sau bài học này, học viên sẽ:

Hiểu rõ cơ chế hoạt động của XGBoost.
Biết cách XGBoost sử dụng trọng số để cải thiện dự đoán.
Hiểu khái niệm ensemble learning và cách XGBoost xử lý đa cộng tuyến (multicollinearity).
Biết cách áp dụng XGBoost qua ví dụ minh họa.

I. CÁCH XGBOOST HOẠT ĐỘNG

1. Ví dụ Minh Họa Cơ Bản

Giả sử bạn có bảng dữ liệu nhỏ:

Quan sát	Đặc trưng (X)	Kết quả thật (y)
1	0.2	1
2	0.8	0
3	0.5	1
4	0.4	0

2. Vòng Lặp 1 (Cây đầu tiên)

Mô hình khởi đầu: Mỗi quan sát có trọng số bằng nhau.
Mô hình dự đoán: đúng quan sát 1 và 2, sai quan sát 3 và 4.
Kết quả:
- Quan sát đúng → giảm trọng số.
- Quan sát sai → tăng trọng số.

XGBoost học từ sai lầm bằng cách ưu tiên học tốt hơn ở các điểm đã sai.

3. Vòng Lặp 2 (Cây thứ hai)

Dựa trên trọng số mới.
Mô hình học tập trung vào các điểm sai (ví dụ: quan sát 3 và 4).
Lặp lại quá trình: cập nhật mô hình → đánh giá → điều chỉnh trọng số.

Mỗi cây mới sửa lỗi của cây trước.

II. ENSEMBLE & SUBSAMPLING

1. Không dùng toàn bộ dữ liệu

XGBoost không sử dụng toàn bộ quan sát trong mỗi vòng lặp → gọi là subsampling.
Ví dụ: Cây 1 bỏ qua quan sát số 3, cây 2 bỏ qua số 4…

2. Không dùng toàn bộ đặc trưng

Mỗi cây học với một tập con của các đặc trưng.
Gọi là column subsampling.

Nhờ đó, XGBoost tạo ra nhiều mô hình nhỏ, mỗi mô hình học trên dữ liệu khác nhau → tổng hợp lại tạo mô hình mạnh mẽ.

Đây chính là Ensemble Learning.

III. ƯU ĐIỂM CỦA XGBOOST

Tự động sửa lỗi qua từng vòng
Tránh quá khớp (overfitting) nhờ dùng một phần dữ liệu
Xử lý tốt đa cộng tuyến (Multicollinearity)
Hiệu quả cao cả về tốc độ và độ chính xác

IV. VÍ DỤ THỰC TẾ ĐƠN GIẢN

Bài toán: Dự đoán khách hàng có mua hàng không (1 = mua, 0 = không)

Tuổi	Số lần truy cập	Kết quả
25	3	1
40	5	0
30	2	1
45	6	0

Cây đầu tiên:
- Dự đoán đúng 2, sai 2.
- Cập nhật trọng số.
Cây thứ hai:
- Tập trung học các điểm sai.
- Giảm sai sót tổng thể.
Cây thứ ba trở đi:
- Lặp lại quá trình.

Kết quả cuối cùng: Dự đoán chính xác cao hơn nhờ tổ hợp các cây nhỏ.

VI. KẾT LUẬN

XGBoost học qua từng vòng → cải thiện kết quả dần dần.
Sử dụng kỹ thuật tổ hợp và lấy mẫu ngẫu nhiên để tăng hiệu suất.
Là một trong những thuật toán mạnh mẽ nhất hiện nay cho bài toán phân loại và hồi quy.

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Kế hoạch cơ bản cho kỹ thuật tạo lệnh AI

Kiến Trúc Transformer – Cỗ Máy Xử Lý Ngôn Ngữ Đỉnh Cao

Kỹ Thuật Prompt Engineering: Cách Giao Tiếp Hiệu Quả với AI

LM Studio

Lệnh Hướng dẫn rõ ràng và Lệnh một ví dụ

Lệnh vài ví dụ mẫu

Lệnh Tư Duy Chuỗi(Chain of Thought Prompting)

Thử Thách Tư Duy Chuỗi (Chain of Thought) - AI Có Thực Sự Thông Minh?

Kết thúc một hành trình – Bắt đầu một chặng đường mới

Giới thiệu

Tokenization – "Băm nhỏ" ngôn ngữ để AI hiểu, qua thế giới phù thủy Harry Potter

Tìm hiểu về Tokenization với OpenAI Tokenizer

Tạo lệnh với System message

Tham số của mô hình Generative AI trong kiến trúc RAG

Thực hành điều chỉnh tham số với LM Studio

Tổng Kết – Kỹ thuật tạo lệnh & Thực Hành

Giới Thiệu

Ảo giác trong AI (AI hallucination) l

Kỹ thuật Tư Duy Mạch Lạc(Chain of Thought - CoT)

Cây lập luận - (Tree of Thought - ToT)

Kỹ Thuật Nhắc Lập Luận Tương Tự - Analogical Reasoning Prompting(ARP)

Diễn Đạt Lại & Phản Hồi - Rephrase and Respond (RnR)

Kỹ Thuật "Trích Dẫn Nguồn Tin Cậy" - According-to Prompting

Kỹ Thuật "Hội Đồng Chuyên Gia Ảo" - Multi-Persona Collaboration

Kỹ thuật Khơi Gợi Cảm Xúc - Emotion Prompting

Kỹ thuật lập trình sẵn cấu trúc tư duy(Meta Prompting)

Kết chương

Giới thiệu

Giới Thiệu Thế Hệ AI Biết "Suy Nghĩ"

Developer Message và System Message

Kỹ Thuật Symbolic AI

Overthinking – "Chiêu Lừa" LLM bằng Prompt Injection Dựa Trên Suy Luận

Giới thiệu

Giới thiệu

Đa cộng tuyến

XGBoost trong Phân tích Dự báo

Hoạt Động của XGBoost

Những Điểm Đặc Biệt (Quirks) của XGBoost

Bẫy biến giả(Dummy Variable Trap) và Các Bước Tiền Xử Lý Dữ Liệu Trong Machine Learning

Hiểu về RMSE – Root Mean Squared Error trong XGBoost

Overfitting và Underfitting

Bias - Variance Tradeoff

Tối ưu hóa mô hình XGBoost & Bias-Variance Tradeoff

Hoạt Động của XGBoost

MỤC TIÊU BÀI HỌC

I. CÁCH XGBOOST HOẠT ĐỘNG

1. Ví dụ Minh Họa Cơ Bản

2. Vòng Lặp 1 (Cây đầu tiên)

3. Vòng Lặp 2 (Cây thứ hai)

II. ENSEMBLE & SUBSAMPLING

1. Không dùng toàn bộ dữ liệu

2. Không dùng toàn bộ đặc trưng

III. ƯU ĐIỂM CỦA XGBOOST

IV. VÍ DỤ THỰC TẾ ĐƠN GIẢN

Bài toán: Dự đoán khách hàng có mua hàng không (1 = mua, 0 = không)

VI. KẾT LUẬN

Không có bình luận