LangSmith, Promptfoo, và TruLens

1. LangSmith – Giám sát và kiểm thử pipelines trong LangChain

LangSmith là một nền tảng được phát triển bởi LangChain giúp bạn:

Ghi lại và giám sát các pipeline tương tác với LLM.
Kiểm tra và đánh giá chất lượng các lời gọi đến LLM.
Phát hiện lỗi, theo dõi hiệu suất và so sánh prompt/agent chains.

Tính năng chính:

Trace toàn bộ luồng hoạt động trong LangChain (gồm các agent, tool, retriever…).
Compare giữa các phiên bản prompt hoặc mô hình.
Test Suites: tạo và chạy bộ test trên các prompt.
Feedback System: thêm đánh giá thủ công hoặc tự động.

Dùng khi:

Bạn đang dùng LangChain để xây dựng app dùng LLM.
Muốn kiểm tra, debug hoặc theo dõi các phiên bản của mô hình/prompt.

2. Promptfoo – Kiểm thử và benchmark các prompt

Promptfoo là một công cụ dòng lệnh và dashboard giúp bạn kiểm thử (test), so sánh (benchmark) và đánh giá hiệu suất của prompt.

Tính năng chính:

Viết test cases giống như unit tests cho prompt.
So sánh nhiều mô hình (GPT-4, Claude, Mistral…) với cùng một prompt.
Đo hiệu suất (latency, độ dài, token usage, v.v).
Hỗ trợ tích hợp CI/CD – kiểm thử prompt tự động mỗi lần đẩy mã.

Ví dụ:

Bạn có thể viết một test YAML:

prompts:
  - "Summarize: {{input}}"
tests:
  - input: "This is a very long article about..."
    expected_output: "A short summary"

promptfoo test

Dùng khi:

Muốn so sánh đầu ra từ nhiều mô hình hoặc nhiều phiên bản prompt.
Muốn đảm bảo chất lượng prompt trước khi đưa vào production.

3. TruLens – Giám sát và đánh giá đạo đức, độ tin cậy, tính đúng đắn của LLM

TruLens là một framework mã nguồn mở giúp bạn:

Đánh giá chất lượng đầu ra LLM (như factuality, relevance, toxicity…).
Tích hợp feedback tự động (qua các đánh giá rule-based hoặc LLM-based).
Ghi lại lịch sử lời gọi API và visual hóa qua dashboard.

Tính năng chính:

Instrumenting: thêm ghi chú (instrumentation) vào app sử dụng LLM (OpenAI, LangChain...).
Evaluation: cung cấp thước đo sẵn như:
- Groundedness (tính gắn với dữ liệu truy xuất)
- Harmfulness
- Answer relevance
TruLens App: Giao diện trực quan để duyệt và phân tích.

Dùng khi:

Muốn theo dõi độ đúng đắn và đạo đức của LLM app.
Cần đo lường LLM có sinh ra phản hồi sai, lệch, gây hiểu nhầm không.

So sánh nhanh:

Công cụ	Mục tiêu chính	Điểm mạnh	Khi nào dùng?
LangSmith	Giám sát & kiểm thử pipeline LLM (LangChain)	Giao diện mạnh, có trace	Khi dùng LangChain
Promptfoo	Benchmark & test prompt	CLI, CI/CD, so sánh nhiều mô hình	Khi muốn kiểm thử prompt
TruLens	Đánh giá đầu ra LLM (relevance, safety)	Tích hợp đánh giá đạo đức, factual	Khi cần đo lường chất lượng LLM

Giới thiệu

Truy vấn Thông tin (Information Retrieval - IR) - Nền tảng của Hệ thống Tìm kiếm và AI

Từ dừng(Stopwords) và Rút gọn từ về gốc(stemming)

RAG (Retrieval-Augmented Generation)

Tokenization (Tách Từ) - Nền Tảng Xử Lý Ngôn Ngữ Tự Nhiên (NLP)

Hiểu cách hoạt động của Vector Space Model (VSM)

Tầm quan trọng của TF-IDF trong xử lý ngôn ngữ tự nhiên (NLP)

Mô Hình Truy Xuất Thông Tin Boolean (Boolean Retrieval Model)

Thực hành Python: Mô hình Boolean Retrieval

Mô hình truy xuất xác suất(Probabilistic Retrieval Model)

LongRAG và LightRAG

Bài Thực Hành LongRAG: Truy Vấn Thông Minh Trên Tài Liệu Dài

Giới thiệu

OpenAI API for Text

Tùy chỉnh đầu ra bằng các tham số trong OpenAI API

Sử Dụng OpenAI API Để Hiểu, Phân Tích Và Mô Tả Hình Ảnh

Giới thiệu

Giới thiệu

Case Study – Ứng dụng RAG vào Sách Dạy Nấu Ăn

Hướng dẫn Xây dựng Hệ Thống RAG sử dụng OpenAI với PDF

Khai phá dữ liệu phi cấu trúc với Retrieval-Augmented Generation (RAG)

Giới thiệu về Thư viện LangChain – Chìa khóa để xử lý dữ liệu phi cấu trúc

Xử lý File Excel Không Cấu Trúc với LangChain

Thiết lập môi trường xử lý dữ liệu không có cấu trúc với LangChain

Đọc và xử lý dữ liệu Excel với LangChain

Xây dựng Hệ thống Truy xuất Thông tin với LangChain + OpenAI

Xây dựng hệ thống RAG với LangChain và OpenAI

Fine-Tuning là gì

Transformers

Fine-Tuning trong hệ thống RAG

Dự án RAG Retriever + Generator Fine-Tuning

Flan-T5

Flan-T5 với RAG

LangSmith, Promptfoo, và TruLens

Hugging Face Transformers, PEFT, LoRA, và QLoRA

Thực hành LangSmith

Bài thực hành Promptfoo cơ bản

Bài Thực Hành: Đánh Giá Hệ Thống RAG với TruLens và LangChain

Bài thực hành PEFT: Phân loại phản hồi khách hàng (Feedback)

Template

Unit test cho hệ thống RAG

Repo mẫu cho hệ thống RAG có unit test

LangSmith, Promptfoo, và TruLens

1. LangSmith – Giám sát và kiểm thử pipelines trong LangChain

Tính năng chính:

Dùng khi:

2. Promptfoo – Kiểm thử và benchmark các prompt

Tính năng chính:

Dùng khi:

3. TruLens – Giám sát và đánh giá đạo đức, độ tin cậy, tính đúng đắn của LLM

Tính năng chính:

Dùng khi:

So sánh nhanh:

Không có bình luận