Ngày 24 tháng 4 vừa rồi, không có sự kiện quảng cáo rầm rộ, không có livestream dài hai tiếng, DeepSeek chỉ đăng một dòng thông báo trên trang tài liệu API và push bộ trọng số lên Hugging Face. Và thế là cả cộng đồng phát triển AI toàn cầu đứng im nửa ngày. Đây không phải một model thông thường nữa. Đây là quả bom giá – hiệu suất mà mọi người đã đợi gần một năm kể từ khi DeepSeek V3 lật ngược thị trường cuối 2025.
Bây giờ đã gần một tháng trôi qua. Hàng ngàn nhà phát triển đã kéo bộ trọng số về máy, chạy thử trên CrewAI, LangChain, tự build agent riêng, đập vỡ hàng tá benchmark cũ. Và điều mọi người phát hiện ra: không phải mọi thứ trên bảng số liệu đều đúng khi bạn chạy thực chiến. Đặc biệt với tác vụ agent coding – thứ mà cả thị trường đang hy vọng DeepSeek V4 Pro sẽ thay thế hoàn toàn GPT-5.5 và Claude Opus ở phân khúc doanh nghiệp nhỏ và cá nhân.
Thực chiến agent coding: Khi benchmark không nói hết sự thật
Đừng hiểu lầm: con số công bố của DeepSeek không bị phồng. 80.6% trên SWE-Bench Verified, 93.5% trên LiveCodeBench, xếp hạng Codeforces 3206 ở chế độ Max reasoning. Đây là con số cao nhất từng có trên bất kỳ model mã nguồn mở nào tính đến giữa tháng 5 năm 2026. Nó không chỉ đánh bại tất cả đối thủ mã nguồn mở, nó còn nằm ngay sát các model đóng hàng đầu thế giới mà trước đây bạn chỉ có thể gọi qua API đóng gói.
Khi bạn dùng nó để sửa lỗi 20 dòng code trên repo nhỏ, để viết unit test, để tối ưu hàm truy vấn cơ sở dữ liệu: nó hoạt động hoàn hảo. Tốt hơn bất cứ thứ gì bạn có thể tự host trước đây. Tốt hơn rất nhiều. Nhiều đội kỹ thuật đã thay thế hoàn toàn gói Copilot Business bằng endpoint tự host V4 Pro chỉ trong tuần đầu ra mắt.
Nhưng ngay khi bạn đẩy nó vào agent thực tế: khi bạn bảo nó đọc toàn bộ mã nguồn 12 file, lập kế hoạch sửa lỗi, chạy thử, tự debug khi lỗi xảy ra, lặp lại chu trình đó 10 lần mà không can thiệp tay – đây là lúc sự khác biệt xuất hiện.
Đánh giá độc lập từ CAISI/NIST công bố ngày 1 tháng 5 cho thấy: trên tác vụ agent lập kế hoạch đa bước dài hạn, DeepSeek V4 Pro chỉ đạt 46% điểm số ARC-AGI-2. Nó bị sa lầy ở những tình huống không có khuôn mẫu trong dữ liệu huấn luyện. Nó sẽ bỏ lỡ chi tiết ẩn ở dòng 712 file thứ 4 sau 3 vòng suy luận. Nó sẽ nhầm lẫn phụ thuộc thư viện khi ngữ cảnh dài hơn 300 ngàn token. Nó không ngu, nó chỉ không còn xuất sắc nữa.
Đây không phải lỗi của DeepSeek. Đây là sự thật mà hầu hết các bài đăng quảng bá không nói với bạn: tất cả các benchmark coding hiện tại đều đo lường hiệu suất tác vụ đơn lẻ. Không có benchmark chuẩn nào đo lường được độ ổn định của một model sau 10 vòng suy luận liên tục. Và đó chính là thuộc tính duy nhất thực sự quan trọng với agent tự động.
Đấu trường 3 model: Ai đáng dùng cho thực tế sản xuất?

Hiện tại DeepSeek V4 Pro không đấu với GPT hay Claude trước hết. Nó đấu ngay với hai đối thủ cùng phân khúc: GLM 4.6 và Minimax M2. Và kết quả so sánh không hề một chiều như nhiều người nghĩ.
Nếu bạn chỉ đo năng lực coding thuần: DeepSeek thắng đậm. Không còn bàn cãi. V4 Pro đạt 80.6% SWE-Bench, trong khi GLM 4.6 đứng ở mức 70% và Minimax M2 dừng ở 68%. Trên LiveCodeBench khoảng cách còn lớn hơn. Nếu công việc của bạn 90% là viết code, debug, tối ưu performance: bạn không cần xem model nào khác nữa. Đây là lựa chọn tốt nhất trên thế giới tính về giá và hiệu suất ngay bây giờ.
Nhưng nếu bạn cần một agent đa năng: không chỉ viết code, mà còn đọc tài liệu kinh doanh, thương lượng với người dùng, ra quyết định trong tình huống không rõ ràng – bảng xếp hạng sẽ đảo ngược hoàn toàn. GLM 4.6 đạt 52% trên ARC-AGI-2, cao hơn gần 15% so với DeepSeek. Minimax M2 dù yếu về code nhưng lại có khả năng xử lý hội thoại dài ổn định nhất trong ba model.
Nhiều nhà phát triển đã mắc sai lầm tuần đầu: họ thấy benchmark coding của DeepSeek quá đẹp, kéo về build agent hỗ trợ khách hàng, rồi thất vọng khi model xử lý tình huống ngoại lệ tệ hơn cả GLM 3.5 cũ. Không có model nào tốt nhất mọi mặt. Chỉ có model phù hợp nhất với công việc của bạn.
Chạy local: Không dễ như hình ảnh bạn thấy trên mạng xã hội

Mọi người sẽ nói với bạn: DeepSeek V4 Pro mã nguồn mở giấy phép MIT, kéo về là chạy được. Đó chỉ là một nửa sự thật.
Phiên bản full precision trên Hugging Face nặng 865GB. Nó không đi kèm Jinja chat template chuẩn. Nó không tương thích mặc định với vLLM, Continue.dev hay bất kỳ framework phổ biến nào bạn đang dùng. DeepSeek cung cấp một script chuyển đổi encoding riêng, bạn sẽ phải viết wrapper tùy chỉnh, chỉnh sửa prompt template, thử nghiệm khoảng 2-3 ngày mới có thể chạy ổn định cho mục đích sản xuất.
Và cái gọi là 1 triệu token context? Đó là con số chỉ có ý nghĩa khi bạn gọi API chính thức của DeepSeek chạy trên cụm phần cứng Huawei Ascend chuyên dụng. Trên card đồ họa tiêu dùng: RTX 4090, 5090, thậm chí RTX 6000 Ada – sau khi lượng tử hóa FP4+FP8 tối ưu nhất, giới hạn thực tế ổn định là khoảng 128 ngàn đến 200 ngàn token. Muốn chạy 500 ngàn token mà không bị giảm chất lượng, bạn cần ít nhất 4 card 48GB VRAM chạy song song.
Nhiều chia sẻ trên cộng đồng LocalLLaMA đã xác nhận: hầu hết người dùng tự host cuối cùng đều cố định context ở mức 128k. Tốc độ sẽ ở mức 120-150 token mỗi giây, đủ dùng cho hầu hết tác vụ. Mọi thứ cao hơn con số đó là để khoe trên mạng xã hội thôi.
API hay tự host: Vấn đề mà không ai nói thẳng
Có một sự phân chia rất rõ ràng trong cộng đồng sau một tháng: một nửa dùng API chính thức, nửa còn lại kéo trọng số về host riêng. Và lý do chia tách không phải về giá.
API DeepSeek giá 1.74 USD mỗi triệu token input, 3.48 USD output. Rẻ gấp 8 lần so với GPT-5.5 tương đương năng lực. Nhưng nó đi kèm lớp lọc nội dung nghiêm ngặt theo quy định pháp luật. Mọi prompt liên quan đến chủ đề nhạy cảm sẽ bị từ chối ngay lập tức. Thậm chí nhiều trường hợp nội dung hoàn toàn vô hại cũng bị chặn do nhận diện sai. Đối với agent chạy 24/7, một lần chặn ngẫu nhiên là đủ phá vỡ toàn bộ luồng công việc.
Phiên bản mã nguồn mở thì ngược lại. Không có bộ lọc cứng ở tầng trọng số. Nhưng do quá trình căn chỉnh sau huấn luyện, model vẫn sẽ né tránh trả lời các chủ đề nhạy cảm ở một mức độ nhất định. Bạn có thể gỡ bỏ hoàn toàn căn chỉnh này với một ít tinh chỉnh thêm, nhưng rất ít người làm vậy vì sẽ làm giảm đáng kể hiệu suất coding.
Quy tắc ngầm hiện tại cộng đồng đang áp dụng: nếu bạn build agent cho nội bộ công ty, chỉ làm việc với code và tài liệu kỹ thuật: dùng API, tiết kiệm tiền và công sức. Nếu bạn build sản phẩm cho người dùng cuối, cần độ ổn định 100% không có gián đoạn: tự host. Đó là lựa chọn duy nhất.
Kết luận: Đây không phải cuộc cách mạng. Đây là bước tiến lớn
Nhiều người đang nói DeepSeek V4 Pro đã kết thúc cuộc đua AI. Đó là sự cường điệu. Đây không phải model hoàn hảo. Nó có giới hạn rõ ràng về suy luận dài hạn. Nó khó chạy local. Nó có những sự đánh đổi về an toàn mà bạn phải chấp nhận.
Nhưng đây là lần đầu tiên trong lịch sử, một model ở cấp độ biên giới hiệu suất được phát hành hoàn toàn mã nguồn mở, giấy phép MIT, với chi phí vận hành chỉ bằng một phần mười các đối thủ. Đây là lần đầu tiên một đơn vị không đến từ Mỹ định nghĩa lại đường cơ sở của toàn bộ ngành.
Đừng chạy kéo trọng số về ngay hôm nay chỉ vì mọi người đang làm vậy. Đừng tin những bài đăng nói nó thay thế được mọi model khác. Hãy thử nó trên tác vụ coding thực tế của bạn. Chạy nó 3 ngày. Xem nó bị lỗi ở đâu. Xem nó tốt ở đâu. Và sau đó quyết định.
Bởi vì đây không phải model cuối cùng tốt nhất. Nhưng đây là model quan trọng nhất được phát hành trong 2 năm vừa rồi. Và bất kể bạn dùng nó hay không, giá cả và tiêu chuẩn hiệu suất của toàn bộ ngành AI từ nay về sau sẽ thay đổi mãi mãi.



