Có một sự thật cơ bản về Large Language Models (LLMs) như ChatGPT: chúng bị “đóng băng theo thời gian”. Chúng biết một lượng thông tin khổng lồ cho đến thời điểm việc huấn luyện (training) kết thúc, nhưng hoàn toàn không biết những gì xảy ra cách đây 5 phút. Ngoài ra, chúng cũng không biết gì về dữ liệu riêng của công ty bạn, như internal wiki, tài liệu nội bộ hay codebase độc quyền.

Nếu bạn muốn AI trả lời các câu hỏi liên quan đến dữ liệu riêng hoặc dữ liệu mới cập nhật, bạn cần phải tìm cách đưa thông tin đó vào model. Trong thế giới AI, việc này được gọi là Context Injection — tức là đưa đúng dữ liệu vào model đúng thời điểm để nó có thể trả lời câu hỏi của người dùng một cách chính xác.

Hiện nay có hai phương pháp chính để thực hiện context injection:

Retrieval-Augmented Generation (RAG)
Long Context Windows

Trong bài viết này, chúng ta sẽ phân tích cách hoạt động của cả hai phương pháp, ưu và nhược điểm của từng cách, và cách lựa chọn phương pháp phù hợp cho hệ thống AI trong doanh nghiệp.

I. Giải pháp mang tính kỹ thuật: Retrieval-Augmented Generation (RAG)

Retrieval-Augmented Generation (RAG) giống như việc cho AI làm bài kiểm tra open-book, nhưng thay vì bắt nó đọc cả cuốn sách, bạn cung cấp cho nó một hệ thống chỉ mục (index) cực kỳ hiệu quả để tìm đúng đoạn văn cần thiết.

Một pipeline RAG tiêu chuẩn hoạt động theo các bước sau:

1. Chunking

Bạn lấy các tài liệu riêng của mình (PDF, code files, sách, tài liệu nội bộ) và chia nhỏ chúng thành các đoạn nhỏ gọi là chunks.

2. Embedding

Các chunk này được đưa vào Embedding Model, model sẽ chuyển văn bản thành vector.

Vector là các mảng số đại diện cho ý nghĩa ngữ nghĩa (semantic meaning) của văn bản.

[0.12, -0.24, 0.88, 0.45, -0.91, 0.33, ...]

3. Storage

Các vector này được lưu trong Vector Database, một loại database chuyên dùng để lưu trữ và tìm kiếm vector.

4. Retrieval

Khi người dùng đặt câu hỏi, hệ thống sẽ thực hiện semantic search để tìm những vector gần nhất (tức là các đoạn văn liên quan nhất).

5. Injection

Cuối cùng, các đoạn văn liên quan này sẽ được chèn vào prompt cùng với câu hỏi của người dùng, để LLM đọc và tạo ra câu trả lời chính xác.

II. Giải pháp "brute force": Long Context Windows

Trong thời gian dài, RAG là lựa chọn duy nhất vì các LLM đời đầu có context window rất nhỏ (bộ nhớ ngắn hạn của model).

Chúng chỉ đọc được khoảng 4,000 tokens (khoảng 3,000 từ) trong một lần. Điều đó có nghĩa là bạn không thể nhét cả cuốn sách vào prompt.

Ngày nay, các LLM hiện đại có context window rất lớn. Một số model có thể xử lý hơn 1,000,000 tokens trong một request.

Để dễ hình dung:

1,000,000 tokens ≈ khoảng 750,000 từ.

Dung lượng này đủ để nhét toàn bộ bộ truyện The Lord of the Rings vào một prompt duy nhất, thậm chí vẫn còn chỗ cho The Hobbit.

Từ đó xuất hiện phương pháp Long Context:

Thay vì dùng vector database, chunking hay retrieval, bạn đưa toàn bộ tài liệu trực tiếp vào prompt. AI sẽ đọc toàn bộ dữ liệu và sử dụng attention mechanism của nó để tự tìm câu trả lời.

III. Lập luận ủng hộ Long Context (Vì sao RAG có thể gây khó chịu)

Nếu chúng ta có thể nhét toàn bộ dữ liệu vào prompt, vậy tại sao vẫn phải dùng RAG?

Những người ủng hộ Long Context chỉ ra 3 vấn đề lớn của RAG.

1. Hạ tầng phức tạp (Infrastructure Complexity)

Xây dựng hệ thống RAG khá phức tạp. Bạn cần:

chiến lược chunking
embedding model
vector database
reranker
hệ thống sync dữ liệu

Long Context giúp đơn giản hóa toàn bộ stack công nghệ. Bạn chỉ cần gửi raw text trực tiếp cho model.

2. Retrieval Lottery (Lỗi âm thầm)

RAG phụ thuộc rất nhiều vào bước retrieval.

Nhưng semantic search là xác suất (probabilistic).

Nếu hệ thống không retrieve được chunk đúng, AI có thể trả lời rằng "tôi không biết", dù câu trả lời thực ra đang nằm trong database.

Đây được gọi là silent failure.

3. Vấn đề "Whole Book"

RAG rất giỏi trong việc tìm fact cụ thể, nhưng lại kém khi cần kết nối thông tin ở nhiều nơi xa nhau.

Ví dụ:

Bạn yêu cầu AI:

So sánh một tài liệu Product Requirements dài 100 trang với Release Notes dài 50 trang để tìm xem security feature nào bị bỏ sót.

RAG có thể chỉ retrieve vài đoạn riêng lẻ, nhưng không nhìn được toàn bộ bức tranh.

Trong trường hợp này, AI cần đọc toàn bộ tài liệu để đưa ra kết luận chính xác.

IV. Lập luận ủng hộ RAG (Vì sao Long Context không phải “magic bullet”)

Dù context window rất lớn, Long Context cũng có nhiều hạn chế.

1. Re-reading Tax

Giả sử bạn hỏi một câu liên quan đến trang 3 của manual 500 trang.

Với Long Context, bạn phải gửi toàn bộ 500 trang (khoảng 250,000 tokens) cho model.

Nếu bạn hỏi câu tiếp theo, bạn phải gửi lại toàn bộ dữ liệu lần nữa.

Điều này gây ra:

tốn compute
phản hồi chậm
chi phí API cao

2. Needle in the Haystack Problem

Khi AI phải đọc 500,000 từ cùng lúc, attention của nó bị phân tán.

Các nghiên cứu cho thấy nếu câu trả lời nằm ở giữa một tài liệu cực dài, model có thể:

bỏ sót thông tin
hallucinate (tự bịa)

RAG giải quyết vấn đề này bằng cách lọc dữ liệu, chỉ gửi 5 đoạn liên quan nhất vào prompt.

3. Infinite Dataset

1 triệu tokens nghe có vẻ lớn, nhưng trong môi trường enterprise thì rất nhỏ.

Ví dụ:

# Enterprise Data Scale Example
1 Million Tokens ≈ 3 Megabytes of text
Enterprise Data Lake ≈ 100+ Terabytes

Bạn không thể nhét toàn bộ knowledge base của công ty vào một prompt.

Với dataset cực lớn, bạn bắt buộc cần lớp retrieval (RAG) để lọc thông tin trước.

V. Ứng dụng thực tế: Khi nào nên dùng phương pháp nào

Việc lựa chọn giữa RAG và Long Context Windows phụ thuộc vào:

kích thước dataset
loại reasoning cần thiết

Khi nên dùng Long Context

Dataset giới hạn và xác định rõ (ví dụ: một cuốn sách, một codebase cụ thể, một hợp đồng pháp lý dài)
Cần global reasoning

Ví dụ:

"Tóm tắt toàn bộ cuốn sách này"
"Tìm các mâu thuẫn pháp lý giữa hai hợp đồng 50 trang"

Khi nên dùng RAG

Dataset cực lớn (wiki nội bộ, dữ liệu lịch sử công ty, log support, data lake)
Cần trả lời nhanh các câu hỏi cụ thể

Ví dụ:

"Chính sách remote work của công ty là gì?"
"Cách reset server router?"

Ngoài ra RAG giúp:

giảm chi phí compute
giảm chi phí API
phản hồi nhanh hơn

VI. Kết luận và Key Takeaways

Cuộc tranh luận giữa RAG và Long Context Windows không phải là việc một phương pháp thay thế phương pháp kia.

Đó là chọn đúng công cụ cho đúng bài toán.

Long Context Windows

đơn giản hơn
cho phép reasoning trên toàn bộ tài liệu

Nhưng khi làm việc với dữ liệu doanh nghiệp ở quy mô lớn, khả năng lọc thông tin chính xác và hiệu quả của RAG vẫn cực kỳ quan trọng.

Key Takeaways

LLMs bị đóng băng theo thời gian → cần Context Injection để hiểu dữ liệu mới hoặc dữ liệu riêng.
RAG: tìm các đoạn văn liên quan trong vector database và đưa chúng vào prompt. Phù hợp với dataset lớn và câu hỏi factual.
Long Context Windows: đưa toàn bộ tài liệu vào prompt. Phù hợp với reasoning trên dataset giới hạn.
Cost vs Capability:
- RAG → rẻ hơn, hiệu quả hơn
- Long Context → đơn giản hơn nhưng tốn compute