LongRAG và LightRAG – Hai bước tiến mới trong hệ thống RAG

Trong lĩnh vực Xử lý ngôn ngữ tự nhiên (NLP), mô hình Retrieval-Augmented Generation (RAG) đã trở thành một phương pháp nổi bật để tăng cường khả năng trả lời câu hỏi bằng cách kết hợp giữa mô hình ngôn ngữ lớn (LLM) và truy xuất thông tin từ dữ liệu bên ngoài. Tuy nhiên, quá trình retrieval (truy xuất) vẫn còn nhiều hạn chế. Gần đây, hai framework mới là LongRAG và LightRAG đã được đề xuất nhằm khắc phục những nhược điểm này, giúp cải thiện cả độ chính xác và hiệu quả.

Tổng quan về RAG

Hệ thống RAG hoạt động theo một pipeline cơ bản gồm:

Retriever: Truy xuất các đoạn văn bản liên quan từ một kho dữ liệu lớn.
(Optional) Ranker: Xếp hạng các đoạn được truy xuất (có thể có hoặc không).
Reader / Generator: Mô hình ngôn ngữ sử dụng các đoạn truy xuất để sinh câu trả lời.

Hạn chế lớn nhất của RAG truyền thống là việc chia nhỏ dữ liệu thành các đoạn ngắn (~100 từ), khiến quá trình truy xuất như “tìm kim đáy bể” – thiếu ngữ cảnh, dễ gây nhiễu và không đầy đủ.

LongRAG – Tối ưu ngữ cảnh qua đoạn văn dài

Ý tưởng chính:

LongRAG, được giới thiệu trong một nghiên cứu năm 2024 của Xian Zhang, giải quyết hạn chế của RAG truyền thống bằng cách sử dụng các đoạn văn dài hơn nhiều (ví dụ: 4000 token ~ 3000 từ) để truy xuất.

Ưu điểm:

Giữ nguyên ngữ cảnh đầy đủ hơn so với các đoạn ngắn.
Giảm số lượng đoạn cần truy xuất → tiết kiệm chi phí tính toán.
Đơn giản nhưng hiệu quả cao: Không cần fine-tune thêm mô hình.

Kết quả thực nghiệm:

Dataset	LongRAG (EM Score)
NQ (Natural Questions)	62.7
HotpotQA	64.3

→ So sánh ngang với Atlas, một mô hình RAG state-of-the-art nhưng không mã nguồn mở.

Nhận xét:

LongRAG hoạt động tốt trên cả truy vấn đơn lẫn multi-hop QA nhờ khả năng duy trì ngữ cảnh dài.
Đây là một giải pháp đơn giản, dễ triển khai, nhưng đem lại hiệu quả ấn tượng.

LightRAG – Truy xuất theo đồ thị ngữ nghĩa

Ý tưởng chính:

LightRAG, do Xirui Guo, Lianghao Xia và các cộng sự đề xuất (2024), tập trung vào cấu trúc hóa kiến thức truy xuất bằng cách xây dựng đồ thị thực thể – quan hệ (graph-based retrieval).

Vấn đề mà LightRAG giải quyết:

Dữ liệu phẳng, thiếu liên kết giữa các đoạn.
Không thể hiện được cấu trúc liên kết tri thức giữa các thực thể.

Các bước chính:

Deduplication: Loại bỏ thông tin trùng lặp (VD: đoạn "beekeeper" xuất hiện nhiều lần).
LM Profiling: Dùng LLM tạo cặp khóa – giá trị mô tả thông tin cốt lõi của đoạn.
Entity & Relationship Extraction: Trích xuất các thực thể và quan hệ → xây đồ thị.
Index Graph: Biểu diễn tri thức dạng đồ thị kết nối các thực thể.
Dual-Level Retrieval:
- Low-level: Truy xuất chi tiết (VD: "beekeeper").
- High-level: Truy xuất theo chủ đề rộng (VD: "nông nghiệp").

So sánh với các baseline:

Dataset	Win Rate của LightRAG
Legal	80.95%
Common Sense	Vượt trội
Mixed	Cao nhất về diversity

→ LightRAG vượt qua mọi baseline bao gồm: NaiveRAG, RQ-RAG, HypeRAG, và GraphRAG.

So sánh LongRAG và LightRAG

Tiêu chí	LongRAG	LightRAG
Cách tiếp cận	Tăng độ dài đoạn truy xuất	Biểu diễn kiến thức dạng đồ thị
Triển khai	Rất đơn giản	Phức tạp hơn, cần xử lý NLP nâng cao
Hiệu quả	Cải thiện ngữ cảnh và giảm lỗi	Cung cấp truy xuất tầng sâu – đa tầng
Tối ưu cho	Truy vấn yêu cầu ngữ cảnh đầy đủ	Câu hỏi nhiều bước, chủ đề phức tạp
Độ mới lạ	Kỹ thuật cải tiến truyền thống	Đột phá trong cách biểu diễn tri thức

LongRAG và LightRAG đều đóng vai trò quan trọng trong việc cải tiến hệ thống RAG:

LongRAG phù hợp với các ứng dụng yêu cầu đơn giản, dễ triển khai nhưng cần độ chính xác cao nhờ ngữ cảnh đầy đủ.
LightRAG thích hợp với các hệ thống tri thức chuyên sâu, yêu cầu mô hình hiểu rõ mối liên hệ giữa các thực thể.

Cả hai đều cho thấy tiềm năng lớn trong việc giúp các mô hình LLM trả lời câu hỏi chính xác hơn, đa dạng hơn và có chiều sâu tri thức hơn.

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Giới thiệu

Truy vấn Thông tin (Information Retrieval - IR) - Nền tảng của Hệ thống Tìm kiếm và AI

Từ dừng(Stopwords) và Rút gọn từ về gốc(stemming)

RAG (Retrieval-Augmented Generation)

Tokenization (Tách Từ) - Nền Tảng Xử Lý Ngôn Ngữ Tự Nhiên (NLP)

Hiểu cách hoạt động của Vector Space Model (VSM)

Tầm quan trọng của TF-IDF trong xử lý ngôn ngữ tự nhiên (NLP)

Mô Hình Truy Xuất Thông Tin Boolean (Boolean Retrieval Model)

Thực hành Python: Mô hình Boolean Retrieval

Mô hình truy xuất xác suất(Probabilistic Retrieval Model)

LongRAG và LightRAG

Bài Thực Hành LongRAG: Truy Vấn Thông Minh Trên Tài Liệu Dài

Giới thiệu

OpenAI API for Text

Tùy chỉnh đầu ra bằng các tham số trong OpenAI API

Sử Dụng OpenAI API Để Hiểu, Phân Tích Và Mô Tả Hình Ảnh

Giới thiệu

Giới thiệu

Case Study – Ứng dụng RAG vào Sách Dạy Nấu Ăn

Hướng dẫn Xây dựng Hệ Thống RAG sử dụng OpenAI với PDF

Khai phá dữ liệu phi cấu trúc với Retrieval-Augmented Generation (RAG)

Giới thiệu về Thư viện LangChain – Chìa khóa để xử lý dữ liệu phi cấu trúc

Xử lý File Excel Không Cấu Trúc với LangChain

Thiết lập môi trường xử lý dữ liệu không có cấu trúc với LangChain

Đọc và xử lý dữ liệu Excel với LangChain

Xây dựng Hệ thống Truy xuất Thông tin với LangChain + OpenAI

Xây dựng hệ thống RAG với LangChain và OpenAI

Fine-Tuning là gì

Transformers

Fine-Tuning trong hệ thống RAG

Dự án RAG Retriever + Generator Fine-Tuning

Flan-T5

Flan-T5 với RAG

LangSmith, Promptfoo, và TruLens

Hugging Face Transformers, PEFT, LoRA, và QLoRA

Thực hành LangSmith

Bài thực hành Promptfoo cơ bản

Bài Thực Hành: Đánh Giá Hệ Thống RAG với TruLens và LangChain

Bài thực hành PEFT: Phân loại phản hồi khách hàng (Feedback)

Template

Unit test cho hệ thống RAG

Repo mẫu cho hệ thống RAG có unit test

LongRAG và LightRAG – Hai bước tiến mới trong hệ thống RAG

Tổng quan về RAG

LongRAG – Tối ưu ngữ cảnh qua đoạn văn dài

Ý tưởng chính:

Ưu điểm:

Kết quả thực nghiệm:

Nhận xét:

LightRAG – Truy xuất theo đồ thị ngữ nghĩa

Ý tưởng chính:

Vấn đề mà LightRAG giải quyết:

Các bước chính:

So sánh LongRAG và LightRAG

Không có bình luận