Tối ưu hóa bộ nhớ ngắn hạn bằng cách tóm tắt hội thoại

Trong bài học trước, bạn đã học cách giảm số lượng tin nhắn trong bộ nhớ ngắn hạn để tiết kiệm token khi làm việc với mô hình ngôn ngữ.
Trong bài học này, chúng ta sẽ tìm hiểu một phương pháp thay thế: Tạo bản tóm tắt hội thoại thay vì lưu toàn bộ danh sách tin nhắn.

Tóm tắt hội thoại: Ý tưởng chính

Thay vì lưu trữ toàn bộ tin nhắn, chúng ta sẽ tóm tắt nội dung cuộc trò chuyện.
Bộ nhớ ngắn hạn ("ba lô" mà chatbot mang theo) sẽ chỉ chứa bản tóm tắt, thay vì toàn bộ các tin nhắn.

Ưu điểm:

Bản tóm tắt nhỏ gọn hơn nhiều so với danh sách tất cả các tin nhắn → tiết kiệm token.

Nhược điểm:

Mức độ chính xác của phản hồi sẽ giảm nhẹ, vì thông tin chi tiết có thể bị mất trong quá trình tóm tắt.

Khi nào nên dùng tóm tắt hội thoại?

Giai đoạn phát triển / demo / beta: Ưu tiên tiết kiệm chi phí và token → Dùng tóm tắt.
Giai đoạn sản phẩm chính thức (production): Ưu tiên hiệu suất và độ chính xác → Có thể dùng toàn bộ tin nhắn.

Ghi nhớ:
Hiệu suất và chi phí luôn cần cân bằng tùy vào mục tiêu dự án của bạn.

Cách triển khai

a. Cấu trúc State mới

Trong state của ứng dụng, ngoài khóa mặc định messages, bạn sẽ thêm một khóa mới:

state = {
    "messages": [...],
    "summary": "..."
}

messages: Lưu danh sách tin nhắn.
summary: Lưu bản tóm tắt nội dung cuộc trò chuyện.

b. Logic hoạt động

Bắt đầu cuộc trò chuyện như bình thường.
Khi số lượng tin nhắn trong bộ nhớ vượt quá ngưỡng (ví dụ: 6 tin nhắn), tạo hoặc cập nhật bản tóm tắt.
Nếu chưa vượt ngưỡng, tiếp tục hội thoại bình thường.

Điều kiện:
Nếu len(messages) > 6 → tạo / cập nhật bản tóm tắt.

c. Các thành phần cần lập trình

Conditional Edge: Kiểm tra số lượng tin nhắn để quyết định có cần tóm tắt hay không.
Function để tóm tắt hội thoại: Lấy danh sách tin nhắn, tạo ra một bản tóm tắt.
Function gửi yêu cầu tới ChatGPT:
- Nếu đã có summary → dùng tóm tắt làm context.
- Nếu chưa có summary → dùng danh sách tin nhắn.

Lưu ý khi thực thi

Mỗi hội thoại / user / session phải gắn với một thread ID riêng.
Khi gửi request, bạn cần truyền thread_id để phân biệt từng cuộc trò chuyện khác nhau.

Tổng kết

Đây là cách thứ hai để giảm lượng token tiêu thụ.
Khác với cách giảm số lượng tin nhắn, ở đây ta chuyển đổi toàn bộ nội dung thành một bản tóm tắt.
Bạn có thể quay lại tài liệu chi tiết và ví dụ khi cần áp dụng kỹ thuật này vào những ứng dụng thực tế.

Ghi nhớ

"Hiệu suất vs Chi phí luôn cần cân bằng. Hiểu kỹ các kỹ thuật ngay từ giai đoạn phát triển sẽ giúp bạn xây dựng các ứng dụng AI tối ưu và chuyên nghiệp hơn."

Tác giả: Đỗ Ngọc Tú
Công Ty Phần Mềm VHTSoft

Gen AI và AI Agents

AI Agents và Multi-Agents

Minh hoạ một hệ thống Multi-Agent trong nhà máy sản xuất cơ khí

Thị Trường AI Agents: Cơ Hội, Chi Phí và Xu Hướng Ứng Dụng Trong Doanh Nghiệp

Lợi Ích Chính Của AI Agent Trong Doanh Nghiệp Hiện Đại

Nguyên tắc triển khai AI agent

Các trường hợp ứng dụng của AI Agent trong đời sống

Làm Thế Nào Để Xây Dựng Kế Hoạch Giới Thiệu AI Agents Trong Công Ty Của Bạn?

Những thách thức triển khai AI Agents

Yêu cầu pháp lý (Regulatory) trong xây dựng AI Agents:

Sự hiện hữu của AI Agents

Xây Dựng AI Agents Chuyên Nghiệp với LangGraph

Bài học thực chiến với ví dụ chi tiết

Giới thiệu

Assistant và Agent

HumanMessage – Tin nhắn từ người dùng

AIMessage – Tin nhắn phản hồi từ AI

SystemMessage - Thiết lập ngữ cảnh

ToolMessage - Kết quả phản hồi từ một công cụ (tool)

ToolCall - Mô hình ngôn ngữ gọi đến một công cụ

Giới thiệu về LangGraph

Vì sao LangGraph ra đời và Graph có ý nghĩa gì

Lập trình khai báo(declarative) và Lập trình mệnh lệnh(imperative)

So sánh LangGraph và LangChain

Tác nhân điều phối(Agentic) trong ứng dụng mô hình ngôn ngữ lớn (LLMs)

Cấp độ hành vi của tác nhân(Agentic) trong ứng dụng LLM

LangGraph Studio, giới thiệu, cài đặt và cách dùng

LangGraph: Framework Xây Dựng Ứng Dụng LLM Dựa Trên Agent + Graph

5 Khái Niệm Trụ Cột

Giới thiệu Poetry

Cơ bản về GraphBuilder

Xây dựng một ứng dụng đơn giản (graph) quyết định xem người dùng nên uống cà phê hay trà

Ứng dụng LangGraph cơ bản với chatbot và công cụ

Định tuyến(Router) trong LangGraph

So sánh Router và Node trong LangGraph

Hiểu rõ hơn về add_conditional_edges

Bài Thực Hành Router Trong LangGraph

Giới thiệu về ReAct Architecture

Thực hành – Node LLM quyết định bước tiếp theo

Kết nối các công cụ (tools) bằng bind_tools

Xây dựng một ứng dụng quyết định xem có nên trò chuyện bằng LLM hay sử dụng công cụ

Tóm tắt chương

Giới Thiệu

Thêm Bộ Nhớ Ngắn Hạn vào Agent trong LangGraph

Thực hành bộ nhớ ngắn hạn

Định dạng state schema trong LangGraph từ TypeDict sang Pydantic

Cách Tùy Chỉnh Cập Nhật Trạng Thái bằng Reducers

Public State, Private State và Multiple State Schemas trong LangGraph

Thực hành Public State and Private State

Giới thiệu

Tối Ưu Chi Phí và Quản Lý Bộ Nhớ Khi Xây Dựng Ứng Dụng AI Với OpenAI

Tối ưu hóa bộ nhớ ngắn hạn bằng cách tóm tắt hội thoại

Giới thiệu về Bộ nhớ Ngoài (Persistent Memory) với LangGraph

Tóm tắt chương

Giới thiệu

Streaming và Human-in-the-loop trong LangGraph

Breakpoints và Human-in-the-loop trong LangGraph

Giới thiệu

3 Bước với OpenAI Agents SKD

OpenAI Agent SDK vs. LangGraph

Agent, Runner, and Trace Classes

Vibe Coding - Lập Trình Theo Cảm Hứng với AI

Core Concepts for AI Development

Tạo 3 agent bán hàng với phong cách giao tiếp khác nhau

Tạo 3 Agents bán hàng theo kiểu luồng (streaming)

Agent trong OpenAI Agent SDK để gọi dữ liệu sản phẩm từ một API thật(Tool)

AI Sales Agents sử dụng OpenAI Agent SDK, SendGrid để gửi email chào hàng

Xây Dựng Hệ Thống Sales Agent Thông Minh với OpenAI SDK

Agent as Tool và Handoff

Bài tập thực hành: Tự động hóa bán hàng với OpenAI Agent SDK

“Hàng Rào An Toàn” Cho AI - Guardrails

Thực hành Xây dựng AI Agent “Sales Manager” với Guardrails

Giới Thiệu Dịch vụ web-search

Tạo Ứng Dụng Agent Tự Nghiên Cứu

Xây dựng "Planner Agent" – Trợ lý lập kế hoạch tìm kiếm thông minh

Bài Thực Hành: "Trợ Lý Lập Kế Hoạch Marketing"

BÀI THỰC HÀNH: Xây dựng Deep Research Agent và gửi kết quả qua Email

Tối ưu hóa bộ nhớ ngắn hạn bằng cách tóm tắt hội thoại

Tóm tắt hội thoại: Ý tưởng chính

Khi nào nên dùng tóm tắt hội thoại?