Unit test cho hệ thống RAG

Viết unit test cho hệ thống RAG (Retrieval-Augmented Generation) giúp đảm bảo rằng các thành phần chính như Retriever, Generator, và Data Pipeline hoạt động chính xác, độc lập và có thể kiểm soát được. Dưới đây là hướng dẫn thực hành cách viết unit test cho hệ thống RAG sử dụng Python (với pytest) và thư viện phổ biến như LangChain hoặc custom code.

1. Các thành phần cần kiểm thử

Hệ thống RAG thường gồm:

Retriever – Tìm kiếm các đoạn văn bản phù hợp từ kho dữ liệu.
Generator – Sinh câu trả lời dựa trên ngữ cảnh và câu hỏi.
RAG Pipeline – Tổng thể pipeline kết hợp cả retriever và generator.
Post-processing (tuỳ chọn) – Xử lý đầu ra của LLM.

2. Cấu trúc ví dụ RAG

Giả sử bạn có pipeline như sau:

class RAGPipeline:
    def __init__(self, retriever, generator):
        self.retriever = retriever
        self.generator = generator

    def run(self, query):
        documents = self.retriever.retrieve(query)
        return self.generator.generate(query, documents)

3. Cách viết unit test

3.1. Tạo file `test_rag.py`

import pytest
from unittest.mock import MagicMock
from rag_pipeline import RAGPipeline

def test_rag_pipeline_returns_expected_output():
    # Mock retriever
    mock_retriever = MagicMock()
    mock_retriever.retrieve.return_value = ["This is a test document."]

    # Mock generator
    mock_generator = MagicMock()
    mock_generator.generate.return_value = "This is a generated answer."

    # Create pipeline
    pipeline = RAGPipeline(mock_retriever, mock_generator)
    result = pipeline.run("What is this?")

    # Assertions
    mock_retriever.retrieve.assert_called_once_with("What is this?")
    mock_generator.generate.assert_called_once_with("What is this?", ["This is a test document."])
    assert result == "This is a generated answer."

3.2. Test retriever riêng biệt

def test_retriever_returns_relevant_docs():
    from my_retriever import SimpleRetriever
    retriever = SimpleRetriever(["Paris is the capital of France."])
    docs = retriever.retrieve("What is the capital of France?")
    assert any("Paris" in doc for doc in docs)

4. Công cụ và kỹ thuật nâng cao

pytest fixtures để khởi tạo dữ liệu.
mocking LLM API calls để tránh chi phí gọi thực tế.
test coverage để kiểm tra phần nào chưa được test.
snapshot testing để so sánh kết quả sinh tự động với mẫu.

5. Chạy test

pytest test_rag.py -v

Gợi ý mở rộng

Test tích hợp: Chạy full pipeline với vectordb thật (FAISS, Chroma).
So sánh kết quả RAG vs non-RAG (benchmark chất lượng sinh).
Kết hợp với Promptfoo, LangSmith, hoặc TruLens để test LLM đầu ra tự động.

Giới thiệu

Truy vấn Thông tin (Information Retrieval - IR) - Nền tảng của Hệ thống Tìm kiếm và AI

Từ dừng(Stopwords) và Rút gọn từ về gốc(stemming)

RAG (Retrieval-Augmented Generation)

Tokenization (Tách Từ) - Nền Tảng Xử Lý Ngôn Ngữ Tự Nhiên (NLP)

Hiểu cách hoạt động của Vector Space Model (VSM)

Tầm quan trọng của TF-IDF trong xử lý ngôn ngữ tự nhiên (NLP)

Mô Hình Truy Xuất Thông Tin Boolean (Boolean Retrieval Model)

Thực hành Python: Mô hình Boolean Retrieval

Mô hình truy xuất xác suất(Probabilistic Retrieval Model)

LongRAG và LightRAG

Bài Thực Hành LongRAG: Truy Vấn Thông Minh Trên Tài Liệu Dài

Giới thiệu

OpenAI API for Text

Tùy chỉnh đầu ra bằng các tham số trong OpenAI API

Sử Dụng OpenAI API Để Hiểu, Phân Tích Và Mô Tả Hình Ảnh

Giới thiệu

Giới thiệu

Case Study – Ứng dụng RAG vào Sách Dạy Nấu Ăn

Hướng dẫn Xây dựng Hệ Thống RAG sử dụng OpenAI với PDF

Khai phá dữ liệu phi cấu trúc với Retrieval-Augmented Generation (RAG)

Giới thiệu về Thư viện LangChain – Chìa khóa để xử lý dữ liệu phi cấu trúc

Xử lý File Excel Không Cấu Trúc với LangChain

Thiết lập môi trường xử lý dữ liệu không có cấu trúc với LangChain

Đọc và xử lý dữ liệu Excel với LangChain

Xây dựng Hệ thống Truy xuất Thông tin với LangChain + OpenAI

Xây dựng hệ thống RAG với LangChain và OpenAI

Fine-Tuning là gì

Transformers

Fine-Tuning trong hệ thống RAG

Dự án RAG Retriever + Generator Fine-Tuning

Flan-T5

Flan-T5 với RAG

LangSmith, Promptfoo, và TruLens

Hugging Face Transformers, PEFT, LoRA, và QLoRA

Thực hành LangSmith

Bài thực hành Promptfoo cơ bản

Bài Thực Hành: Đánh Giá Hệ Thống RAG với TruLens và LangChain

Bài thực hành PEFT: Phân loại phản hồi khách hàng (Feedback)

Template

Unit test cho hệ thống RAG

Repo mẫu cho hệ thống RAG có unit test

Unit test cho hệ thống RAG

1. Các thành phần cần kiểm thử

2. Cấu trúc ví dụ RAG

3. Cách viết unit test

3.1. Tạo file test_rag.py

3.2. Test retriever riêng biệt

4. Công cụ và kỹ thuật nâng cao

5. Chạy test

Gợi ý mở rộng

Không có bình luận

3.1. Tạo file `test_rag.py`