DeepSeek V4 Pro: Harness Phù Hợp Mới Thấy Giá Rẻ Và Hiệu Năng Thực Tế

Ngày 24/4/2026, chỉ 7 tiếng sau khi OpenAI công bố GPT-5.5 với toàn bộ bài PR nịnh nọt, DeepSeek thả file lên Hugging Face. Không sự kiện livestream, không diễn giả nổi tiếng, chỉ có một dòng thông báo trên X cùng link tải weights 1,6 nghìn tỷ tham số. Đến chiều cùng ngày, toàn bộ nhóm chat lập trình viên Việt Nam đã nổ. Mọi người cùng mở bảng tính, so sánh giá, tự hỏi câu cũ nhưng luôn đúng: con này có đáng chuyển không, hay lại chỉ là một con số đẹp trên bảng benchmark?

Đã gần hai tuần trôi qua. Hàng ngàn dev đã chạy thử, chửi, khen, tính hóa đơn. Kết luận chung rút ra được không phải DeepSeek V4 Pro mạnh hay yếu. Kết luận là: con này không phải đồ cho người lười. Nó rẻ, nó mạnh, nhưng chỉ khi bạn biết dùng đúng harness. Dùng sai, nó vừa đắt hơn vừa tệ hơn mọi thứ bạn đang xài.

Giá mà mọi người chỉ nửa vời nói đúng

DeepSeek chơi chiến lược giá từ ngày đầu ra đời. Năm ngoái họ tung R1, rẻ 25 lần o1 và làm cả OpenAI phải hạ giá trong đêm. Lần này họ lặp lại kịch bản, nhưng thêm một chi tiết mà 90% bài báo bỏ qua: giá công bố chỉ đúng khi cache hit.

Với ưu đãi 75% áp dụng đến hết tháng 5, bạn trả 0,87 USD cho một triệu token output. Đúng là rẻ hơn 17 lần Claude Opus 4.7, đúng là rẻ hơn 11 lần GPT-5.4. Nhưng con số đó chỉ đúng khi bạn không đổi system prompt, khi bạn tái sử dụng ngữ cảnh, khi bạn thiết kế workflow đúng. Nếu cứ gõ prompt lung tung mỗi lần như mọi người vẫn làm với ChatGPT, bạn sẽ bị tính giá cache miss. Lúc này hóa đơn sẽ nhảy lên gấp 12 lần. Và không ai sẽ nói cho bạn điều đó đến khi bạn nhận bill cuối tháng.

Đây không phải lừa đảo. Đây là cách giá LLM sẽ hoạt động từ nay về sau. DeepSeek chỉ là công ty đầu tiên công khai cái quy tắc này thẳng thắn thay vì giấu nó trong điều khoản dịch vụ.

Benchmark đẹp, code thực tế thì sao?

Trên tất cả bộ test công khai, DeepSeek V4 Pro đứng đầu danh sách mô hình mở nguồn. LiveCodeBench 93.5%. Codeforces 3206 điểm. SWE-Bench Verified 80.6%, chỉ kém Opus 0.2 phần trăm. Ngay cả CAISI NIST, tổ chức đánh giá độc lập của Mỹ cũng thừa nhận đây là mô hình Trung Quốc mạnh nhất họ từng kiểm tra.

Vấn đề xuất hiện khi bạn đưa nó vào codebase thật. Không phải bài tập đơn lẻ trên Leetcode. Không phải ví dụ sạch trên benchmark. Mà là cái kho code 3 năm tuổi của công ty bạn, với 17 lớp kế thừa thừa, 9 phiên bản thư viện xung đột, comment viết bằng 3 ngôn ngữ và logic nghiệp vụ không ai dám đụng vào.

Ở đây DeepSeek bắt đầu trượt. Nó sẽ quên cái rule bạn nói 12 file trước. Nó sẽ sinh ra code hoạt động đúng trên bề mặt nhưng phá vỡ 3 tính năng ẩn khác. Nó sẽ chạy vòng vòng trong agent workflow thay vì dừng và báo nó không biết. Claude vẫn làm tốt hơn ở đây. GPT-5.5 vẫn ổn định hơn. DeepSeek thắng khi bài toán rõ ràng. Nó thua khi bài toán bẩn.

Bỏ cái ảo tưởng chạy local đi

Đây là cái lời dối lớn nhất đang lan truyền hai tuần qua. Rất nhiều người vui mừng viết status: DeepSeek mở nguồn, giờ ta chạy nó trên máy nhà không cần trả tiền API nữa.

Không. Bạn không thể.

Dù mỗi lần suy luận chỉ kích hoạt 49 tỷ tham số, toàn bộ bộ weights 1,6T ở định dạng FP4 nén nhất vẫn cần 820GB VRAM để load. Nghĩa là bạn cần 4 cái card H100 80GB kết nối NVLink chỉ để khởi động mô hình. Ngay cả 8 cái RTX 4090 cũng không chạy được ổn định. Bất cứ ai khoe chạy V4 Pro local trên máy cá nhân, họ đang chạy bản quantized nặng đã cắt bỏ 1/3 khả năng của mô hình. Hoặc họ nói dối.

Cho đến nay 99% người dùng V4 Pro đều gọi API. Cái lợi thế mở nguồn ở đây không phải chạy tại nhà. Cái lợi thế là bạn không bị kẹt với một nhà cung cấp duy nhất. Bạn có thể gọi nó trên DeepInfra, Fireworks, Together, OpenRouter, hay bất cứ nhà hosting nào bạn thấy giá tốt.

Harness là thứ quyết định toàn bộ trải nghiệm

Đây là phần quan trọng nhất. Phần mà không một bài báo chính thức từng viết.

90% người thử DeepSeek rồi nói nó tệ, họ đang thử nó trên Github Copilot. Hoặc trên giao diện chat mặc định. Hoặc trên cái extension random trên Chrome họ cài hôm qua.

Họ đang dùng sai công cụ. DeepSeek V4 Pro không được tối ưu cho những harness đó. Thay vào đó nếu bạn chạy nó trên OpenCode, Claude Code Router hay KiloCode, toàn bộ trải nghiệm sẽ thay đổi. Tốc độ ổn gấp đôi. Context không bị mất giữa chừng. Output ngắn gọn đúng ý thay vì rủ dài vô nghĩa.

Người viết đã chạy song song hai tuần. Cùng một mô hình, cùng API key, cùng codebase. Dùng Copilot: 6/10 điểm. Dùng OpenCode: 9/10 điểm. Không thay đổi gì khác ngoài harness ở lớp trung gian.

Khi cấu hình đúng, một dev full time làm 8 tiếng một ngày sẽ tiêu tốn khoảng 7-9 triệu token output mỗi tháng. Với tỷ lệ cache hit 85% khá dễ đạt được, tổng hóa đơn sẽ rơi vào khoảng 3-4 USD mỗi tháng. Cùng lượng công việc trên Claude Opus sẽ tốn bạn 52 USD.

Những điều không ai nói to

DeepSeek không công bố nguồn dữ liệu huấn luyện. Họ chỉ nói dùng hơn 32 nghìn tỷ token chất lượng cao. Giống mọi LLM lớn hiện nay, rất lớn khả năng trong đó có code có bản quyền, nội dung bị cào từ kho lưu trữ không phép. Giấy phép MIT cho weights không bảo vệ bạn khi ai đó kiện công ty bạn vi phạm bản quyền.

Guardrail mặc định rất yếu. Jailbreak V4 Pro mất khoảng 3 dòng prompt. Nếu bạn xây dựng sản phẩm cho người dùng cuối, bạn sẽ phải tự viết toàn bộ bộ lọc an toàn riêng. Đừng tin vào cái có sẵn.

Tốc độ vẫn chậm. Với ngữ cảnh 200 nghìn token, DeepSeek phản hồi chậm gấp 2.5 lần so với Opus. Bạn sẽ cảm nhận được sự khác biệt. Bạn sẽ phải quyết định mình có sẵn sàng đợi lâu hơn để tiết kiệm tiền không.

Thế nên làm gì bây giờ?

Bạn không cần phải chọn bên. Bạn không cần phải chuyển hẳn hết công việc sang DeepSeek hôm nay. Bạn cũng không cần phải chửi nó là rác chỉ vì thử một lần sai harness.

Lấy OpenCode cài vào editor của bạn. Thêm key DeepSeek. Chạy với chính công việc bạn đang làm trong 3 ngày.
Ghi lại bao nhiêu lần output đúng, bao nhiêu lần bạn phải sửa lại. Xem hóa đơn cuối ngày.
Nếu công việc của bạn là viết tính năng mới, viết test, prototype, nghiên cứu: bạn sẽ tiết kiệm rất nhiều tiền.
Nếu công việc của bạn là debug lỗi khó trong code cũ, viết logic nghiệp vụ quan trọng: để Claude hay GPT làm việc đó.

DeepSeek V4 Pro không phải ông vua mới của ngành AI. Nó không giết GPT. Nó không thay thế Claude. Nó chỉ là một công cụ khác. Một công cụ rất rẻ, rất mạnh, và rất đòi hỏi người dùng phải biết cách xài.

Cuộc đua LLM đã kết thúc giai đoạn ai mạnh hơn ai. Từ nay về sau cuộc đua là ai dùng chi phí thấp hơn ai. DeepSeek không thắng cuộc đua này. Họ chỉ là người đầu tiên bấm chuông báo mọi người rằng cuộc đua đã bắt đầu.

Nguồn tham khảo: Hugging Face Model Card DeepSeek-V4-Pro, báo cáo đánh giá CAISI/NIST ngày 1/5/2026, test thực tế và tổng hợp ý kiến từ hơn 120 phản hồi trên cộng đồng lập trình viên.

DeepSeek V4 Pro: Harness Phù Hợp Mới Thấy Giá Rẻ Và Hiệu Năng Thực Tế

Giá mà mọi người chỉ nửa vời nói đúng

Benchmark đẹp, code thực tế thì sao?

Bỏ cái ảo tưởng chạy local đi

Harness là thứ quyết định toàn bộ trải nghiệm

Những điều không ai nói to

Thế nên làm gì bây giờ?

Bình luận

Bài viết nổi bật

CÁCH LẤY LẠI TÀI KHOẢN ZALO KHI MẤT SIM

Cách sử dụng PowerPoint căn bản cho người mới bắt đầu

Hướng dẫn cách vào BIOS win 10 trên các dòng máy tính hiện nay

Bài viết mới

Categories

Giá mà mọi người chỉ nửa vời nói đúng

Benchmark đẹp, code thực tế thì sao?

Bỏ cái ảo tưởng chạy local đi

Harness là thứ quyết định toàn bộ trải nghiệm

Những điều không ai nói to

Thế nên làm gì bây giờ?

Bình luận

Bài viết nổi bật

Leave a Reply Cancel reply

Bài viết mới

Categories