CÙNG LÀ AI TOP ĐẦU THẾ GIỚI. NHƯNG CÓ MODEL GIÚP HR ĐẠT 88 ĐIỂM — VÀ CÓ MODEL… 0 ĐIỂM.
- Phi Van Nguyen
- 10 giờ trước
- 4 phút đọc

Tuần này có một báo cáo nghiên cứu được công bố mà tôi nghĩ ai đang dùng AI cho công việc đều nên đọc: JobBench (job-bench.github.io).
Đây là benchmark đầu tiên hỏi một câu khác hẳn các báo cáo trước: Không phải "AI giỏi đến mức nào?" Mà là "AI giỏi đúng việc mà chuyên gia trong nghề MUỐN giao cho nó hay không?" Khác biệt này rất quan trọng: JobBench KHÔNG đo "AI thay thế được bao nhiêu % công việc của con người mà đo theo 2 bước:
Bước 1: Hỏi 1.500+ chuyên gia thật trong 35 ngành nghề: "Trong những việc anh/chị làm hằng ngày, đâu là việc anh/chị MUỐN giao cho AI?" (Phần còn lại — liên quan đến phán đoán, đạo đức, quan hệ, trách nhiệm pháp lý, vv, con người giữ lại tự làm.)
Bước 2: Chấm điểm 18 model AI hàng đầu (GPT, Claude, Gemini, Qwen, Kimi, Grok…) trên 2.066 tiêu chí cụ thể, xem AI làm tốt được bao nhiêu phần trăm những việc được con người giao.
Như vậy, theo báo cáo, khi bạn thấy Claude Sonnet 4.6 đạt 59 điểm theo nghề tương ứng là CFO, điều này có nghĩa là: Claude hoàn thành được 59% phân việc mà CFO người muốn giao cho AI. KHÔNG có nghĩa là Claude thay được 59% công việc của một CFO nhé. Khác biệt nhỏ về câu chữ, nhưng rất lớn về triết lý: JobBench coi bạn là người cộng tác có quyền chọn việc để giao, không phải là lao động sắp bị thay thế. Tôi rất thích góc nhìn này. Và kết quả gói gọn trong một biểu đồ nhiệt mà tôi đã dịch sang tiếng Việt (ảnh đính kèm).
NHƯNG ĐÂY MỚI LÀ ĐIỀU KHIẾN CHÚNG TA NÊN DỪNG LẠI SUY NGHĨ:
Từ báo cáo, ví dụ lấy nghề Nhân sự (HR Specialist) ra làm ví dụ.
GPT-5.2 đạt 88 điểm - cao nhất toàn bảng, gần như "hoàn hảo"
Claude Opus 4.7 (model #1 tổng thể) chỉ đạt 47 điểm
Gemini 3 Pro: 0 điểm.
Cùng một công việc là HR. Ba model AI hàng đầu thế giới có số điểm chênh nhau lên tới 88 điểm. Ủa là sao? Nghĩa là nếu bạn là HR Manager đang dùng Gemini để sàng lọc CV hay viết JD, bạn đang dùng một con dao nhựa để cắt thịt bò. Không phải vì Gemini dở mà vì nó rất giỏi chuyện khác chớ không giỏi thứ bạn đang cần. Như vậy nghĩa là theo báo cáo này, bạn đang chọn sai AI cho công việc muốn giao.
Lấy ví dụ khác là Giám đốc Tài chính (CFO), một nghề quản lý nội bộ doanh nghiệp giống như HR. Tưởng là tương tự nhưng không hề. Kết quả là:
Claude Sonnet 4.6: 59 điểm - dẫn đầu
GPT-5.4 (model #2 toàn bảng tổng thể): 14 điểm
Grok 4.2 Fast: 4 điểm
Cùng là quản lý nội bộ, nhưng kết quả ĐẢO NGƯỢC HOÀN TOÀN so với HR. Với nghề HR, GPT-5.2 (88) đánh bại Claude (47). Với nghề CFO, Claude (59) đánh bại GPT-5.4 (14) - chênh nhau 45 điểm theo chiều ngược lại. Như vậy, theo báo cáo này, một CFO nếu dùng ChatGPT để phân tích báo cáo tài chính, dự báo dòng tiền, đánh giá đầu tư, vv đang nhận về kết quả tệ gấp 4 lần so với khi dùng Claude (trên chính những việc mà CFO muốn giao cho AI).
VẬY BÀI HỌC CHO CHÚNG TA LÀ GÌ?
Đừng tin có thứ gọi là AI số 1 thế giới". Không có model nào số 1 cho mọi việc. Có model giỏi việc A, có model giỏi việc B. Bảng xếp hạng tổng thể chỉ là điểm trung bình, và điểm trung bình không cho chúng ta nhìn thấy mặt yếu điểm mạnh theo từng khía cạnh.
Hãy test các model trước khi chọn sử dụng. Trước khi trả phí một năm cho ChatGPT Plus hay Claude Pro, hãy thử cùng một công việc thật của bạn trên 2-3 model khác nhau. Bạn sẽ ngạc nhiên vì sự chênh lệch trong chất lượng đầu ra hay kết quả.
Skill mới không phải "biết dùng AI". Skill mới là "biết AI nào dùng cho việc nào". Đây là một khả năng phán đoán siêu quan trọng của con người, và nó sẽ thành lợi thế cạnh tranh trong 2-3 năm tới.
Phát hiện đáng suy ngẫm: Model giỏi nhất hiện tại chỉ hoàn thành 45.9% tập việc mà chuyên gia MUỐN giao cho AI. Tức là ngay cả trong phần việc mà con người sẵn lòng giao đi, AI vẫn còn hơn nửa khoảng trống chưa làm được. Điều này cho thấy câu chuyện "AI sắp thay thế con người" cần phải được đặt để vào đúng ngữ cảnh hơn.
Tôi đã làm một bản tóm tắt báo cao 1 trang bằng tiếng Việt để bạn lưu lại tham khảo. Giờ bạn nên xem kỹ, trong nhóm nghề của mình, model nào đang dẫn đầu? Hãy thử tra trước khi đăng ký gói AI nào tiếp theo.
Download file pdf của báo cáo tiếng Việt ở đây: