RAG - AI THỰC CHIẾN: TỪ LÝ THUYẾT ĐẾN HỆ THỐNG THÔNG MINH
Không phải AI thay thế bạn—mà là người dùng AI sẽ thay thế người không dùng AI."
Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft
Giới thiệu
AI không phải phép thuật—mà là công cụ mạnh mẽ. Dùng đúng cách, nó sẽ thúc đẩy doanh nghiệp của b...
Cơ sở của Hệ thống Truy xuất(Retrieval system)
Cơ chế tìm kiếm, truy xuất dữ liệu liên quan đến một truy vấn người dùng (text, hình ảnh, v.v...
Giới thiệu
Bạn tò mò về "phép thuật" đằng sau những kết quả tìm kiếm? Phần này sẽ bật mí tất cả.Chúng ta sẽ ...
Truy vấn Thông tin (Information Retrieval - IR) - Nền tảng của Hệ thống Tìm kiếm và AI
IR là gì? Tại sao nó quan trọng? Trong bài này, bạn sẽ hiểu rõ Information Retrieval (IR) và tầm...
Từ dừng(Stopwords) và Rút gọn từ về gốc(stemming)
Stopwords và stemming – hai bước rất quan trọng trong quá trình tiền xử lý văn bản trong lĩnh vực...
RAG (Retrieval-Augmented Generation)
Hãy cùng tìm hiểu chi tiết về RAG (Retrieval-Augmented Generation) — một kỹ thuật rất quan trọng ...
Tokenization (Tách Từ) - Nền Tảng Xử Lý Ngôn Ngữ Tự Nhiên (NLP)
Tokenization là gì? Tokenization là quá trình chia nhỏ văn bản thành các đơn vị nhỏ hơn như từ, ...
Hiểu cách hoạt động của Vector Space Model (VSM)
1. Mục tiêu bài học Sau bài học này, bạn sẽ: Hiểu được khái niệm Vector Space Model (VSM). ...
Tầm quan trọng của TF-IDF trong xử lý ngôn ngữ tự nhiên (NLP)
TF-IDF là gì? TF-IDF là viết tắt của: TF – Term Frequency (Tần suất xuất hiện của từ) ...
Mô Hình Truy Xuất Thông Tin Boolean (Boolean Retrieval Model)
1. Mục Tiêu Bài Học Hiểu được khái niệm và cách hoạt động của mô hình Boolean Sử dụng đ...
Thực hành Python: Mô hình Boolean Retrieval
Dây là phần thực hành mô hình Boolean Retrieval bằng Python kèm theo giải thích chi tiết từng bướ...
Mô hình truy xuất xác suất(Probabilistic Retrieval Model)
1. Giới thiệu Mô hình truy xuất xác suất giả định rằng: Mỗi tài liệu có một xác suất liên qua...
LongRAG và LightRAG
1. LongRAG là gì? Định nghĩa: LongRAG là phiên bản mở rộng của RAG để xử lý các tài liệu dài hơ...
Bài Thực Hành LongRAG: Truy Vấn Thông Minh Trên Tài Liệu Dài
Mục tiêu Tải và xử lý văn bản dài (PDF/text) Chia thành các đoạn dài (long chunks) ...
OpenAI API
OpenAI API, một công cụ cực kỳ mạnh mẽ, linh hoạt và đang tạo nên những bước đột phá trong thế gi...
Giới thiệu
Tại sao phải học về API? Tại sao OpenAI API lại quan trọng đến vậy? Hãy tưởng tượng như thế này:...
OpenAI API for Text
Mục tiêu bài học Trong bài học này, bạn sẽ: Hiểu cách hoạt động cơ bản của OpenAI API ...
Tùy chỉnh đầu ra bằng các tham số trong OpenAI API
Mục tiêu Trong bài học này, chúng ta sẽ: Khám phá cách tinh chỉnh đầu ra của mô hình ngôn n...
Sử Dụng OpenAI API Để Hiểu, Phân Tích Và Mô Tả Hình Ảnh
Trong phần này, chúng ta sẽ khám phá cách sử dụng OpenAI API với hình ảnh, một tính năng mạnh mẽ ...
LongRAG và LightRAG – Hai bước tiến mới trong hệ thống RAG
Trong lĩnh vực Xử lý ngôn ngữ tự nhiên (NLP), mô hình Retrieval-Augmented Generation (RAG) đã trở...
Tự động hóa thực đơn với AI
Đây là một dự án mà giảng viên rất tâm huyết, bởi vì nó không chỉ là một bài tập học thuật, mà cò...
RAG với các Models OpenAI GPT
Giới thiệu
Mục tiêu của bài học Bạn sẽ học cách xây dựng một hệ thống AI thông minh có khả năng: Tìm k...
Case Study – Ứng dụng RAG vào Sách Dạy Nấu Ăn
Chúng ta vừa thiết lập nền tảng cho những gì bạn sẽ đạt được trong phần này. Và bây giờ, đã đến l...
Hướng dẫn Xây dựng Hệ Thống RAG sử dụng OpenAI với PDF
Tổng Quan Hướng dẫn cách xây dựng một hệ thống RAG (Retrieval-Augmented Generation) sử dụng: ...
RAG với dữ liệu phi cấu trúc
RAG (Retrieval-Augmented Generation) là một phương pháp tiên tiến kết hợp giữa truy xuất thông ti...
Khai phá dữ liệu phi cấu trúc với Retrieval-Augmented Generation (RAG)
Hãy tưởng tượng bạn đang phải đối mặt với hàng tá tài liệu, báo cáo dài dòng, hợp đồng, email, ha...
Giới thiệu về Thư viện LangChain – Chìa khóa để xử lý dữ liệu phi cấu trúc
Vì sao cần LangChain? Ở phần trước, chúng ta đã sử dụng API của OpenAI để xử lý hình ảnh và văn ...
Xử lý File Excel Không Cấu Trúc với LangChain
Tình huống thực tế Hãy tưởng tượng bạn được giao nhiệm vụ phân tích một file Excel khổng lồ chứa...
Thiết lập môi trường xử lý dữ liệu không có cấu trúc với LangChain
Trong phần này, chúng ta sẽ thiết lập môi trường làm việc để xử lý dữ liệu không có cấu trúc bằng...
Đọc và xử lý dữ liệu Excel với LangChain
Trong bài học này, chúng ta sẽ: Đọc dữ liệu từ file Excel Phân tích và hiển thị dữ liệu...
Xây dựng Hệ thống Truy xuất Thông tin với LangChain + OpenAI
Trong bài học này, chúng ta sẽ: Tạo embeddings từ dữ liệu Lưu embeddings vào cơ sở dữ l...
Xây dựng hệ thống RAG với LangChain và OpenAI
Mục tiêu Hiểu cách xử lý dữ liệu từ hệ thống tìm kiếm thông tin (retrieval). Hợp nhất d...
Fine-Tuning
Giải thích chi tiết và dễ hiểu về Fine-Tuning trong lĩnh vực mô hình ngôn ngữ (LLM):
Fine-Tuning là gì
Fine-tuning là quá trình đào tạo lại (huấn luyện tiếp) một mô hình ngôn ngữ đã được huấn luyện tr...
Transformers
Transformers là một kiến trúc mạng nơ-ron (neural network architecture) được giới thiệu bởi Googl...
Fine-Tuning trong hệ thống RAG
Fine-tuning đóng vai trò rất quan trọng trong việc nâng cao chất lượng của hệ thống RAG (Retrieva...
Dự án RAG Retriever + Generator Fine-Tuning
Dưới đây là một template RAG đầy đủ (Retriever + Generator) có hỗ trợ Fine-Tuning cả hai phần: Re...
Flan-T5
Flan-T5 là một mô hình ngôn ngữ do Google huấn luyện, thuộc họ T5 (Text-To-Text Transfer Transfor...
Flan-T5 với RAG
Dưới đây là một bài thực hành chi tiết giúp bạn xây dựng hệ thống RAG (Retrieval-Augmented Genera...
Các công cụ
LangSmith, Promptfoo, và TruLens
1. LangSmith – Giám sát và kiểm thử pipelines trong LangChain LangSmith là một nền tảng được phá...
Hugging Face Transformers, PEFT, LoRA, và QLoRA
Hugging Face Transformers Hugging Face Transformers là một thư viện mã nguồn mở nổi tiếng cung c...
Thực hành LangSmith
LangSmith là gì? LangSmith là một nền tảng giúp bạn:LangSmith Theo dõi (tracing): Ghi lại t...
Bài thực hành Promptfoo cơ bản
Dưới đây là bài thực hành Promptfoo cơ bản để giúp bạn bắt đầu đánh giá và so sánh các prompt sử ...
Bài Thực Hành: Đánh Giá Hệ Thống RAG với TruLens và LangChain
Mục Tiêu Xây dựng một hệ thống RAG đơn giản sử dụng LangChain. Tích hợp TruLens để theo...
Bài thực hành PEFT: Phân loại phản hồi khách hàng (Feedback)
Dưới đây là một bài thực hành PEFT gắn liền với thực tế, cụ thể là bài toán phân loại phản hồi kh...
Unit Test
Template
## Repo: rag_unit_test_template # 📁 Folder Structure rag_unit_test_template/ ├── rag_pipel...
Unit test cho hệ thống RAG
Viết unit test cho hệ thống RAG (Retrieval-Augmented Generation) giúp đảm bảo rằng các thành phần...
Repo mẫu cho hệ thống RAG có unit test
Cấu trúc thư mục repo: rag-pipeline-example/ rag-pipeline-example/ ├── rag_pipeline/ │ ├── _...