Nhảy đến nội dung chính

Hiểu về RMSE – Root Mean Squared Error trong XGBoost

1. RMSE là gì?

RMSE (Root Mean Squared Error) – là căn bậc hai của trung bình bình phương sai số, dùng để đo mức độ sai lệch giữa giá trị thực tế và giá trị dự đoán của mô hình.

📌 RMSE càng thấp → mô hình càng chính xác.

2. Khi nào dùng RMSE?

RMSE thường được dùng khi bạn giải quyết bài toán hồi quy – tức là khi biến mục tiêu (Y)liên tục, ví dụ:

  • Dự đoán giá nhà

  • Dự đoán doanh thu

  • Dự đoán nhiệt độ, v.v.

3. Công thức RMSE:

image.png

4. Trực quan hóa RMSE

Hãy tưởng tượng:

  • Bạn có trục X và trục Y.

  • Đường thẳng màu xanh biểu diễn mô hình dự đoán.

  • Các dấu chấmgiá trị thực tế.

  • Mũi tên từ chấm tới đường thẳng chính là sai số (error).

  • RMSE là trung bình độ dài của các mũi tên đó, rồi lấy căn bậc hai.

5. Ví dụ cụ thể

Giả sử bạn đang dự đoán điểm thi của học sinh, và bạn có:

image.png

6. RMSE bao nhiêu là tốt?

Không có “một con số tuyệt đối” nào cho RMSE tốt, vì:

  • Phụ thuộc vào phạm vi dữ liệu (ví dụ: sai lệch 10 là lớn nếu điểm thi từ 0–10, nhưng nhỏ nếu doanh thu tính bằng triệu đô).

  • Phụ thuộc vào độ khó của bài toán.

→ 📌 Hãy so sánh RMSE của mô hình hiện tại với các mô hình khác để đánh giá.

7. RMSE trong XGBoost

XGBoost tự động tối ưu hóa để giảm RMSE (hoặc một hàm lỗi tương tự) trong quá trình huấn luyện khi bạn dùng cho bài toán hồi quy.

Tóm tắt:

Nội dung Ý nghĩa
RMSE Đo sai số trung bình giữa thực tế và dự đoán
Thích hợp cho Bài toán hồi quy
RMSE nhỏ hơn → mô hình tốt hơn Đúng, nhưng cần phụ thuộc vào ngữ cảnh
Dùng để So sánh giữa các mô hình

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft