top of page

Khi AI đủ ổn định để làm việc mỗi ngày, thị trường lao động sẽ đổi luật chơi.

AI Leaderboard

AI leaderboard (bảng xếp hạng AI) đang thay đổi rất nhanh. Và điều thú vị là: nó không còn là cuộc thi “AI nào thông minh hơn”. Nó đang dần trở thành cuộc thi: “AI nào làm việc văn phòng đáng tin hơn.”


Một benchmark (bộ đánh giá chuẩn) mới tên JobBench vừa công bố bảng xếp hạng các mô hình AI dựa trên khả năng hoàn thành những công việc thật mà con người muốn giao cho AI làm. Không phải giải đề thi. Không phải tranh luận triết học. Không phải làm thơ. Mà là những việc rất đời thường trong doanh nghiệp như xử lý paperwork (giấy tờ hành chính), kiểm tra compliance (tuân thủ quy định), quản lý workflow (luồng công việc), điền biểu mẫu, làm báo cáo định kỳ hay xử lý các tác vụ vận hành lặp đi lặp lại.


Điều này phản ánh một thay đổi rất lớn trong cách thế giới đánh giá AI. Trong mấy năm qua, phần lớn leaderboard (bảng xếp hạng) AI tập trung vào việc AI suy luận giỏi tới đâu, viết code mạnh cỡ nào hay trả lời benchmark học thuật tốt không. Nhưng trong môi trường doanh nghiệp, vấn đề lớn nhất lại không phải “AI có thông minh không”. Mà là: “Nó có ổn định đủ để giao việc mỗi ngày không?”


Một bạn AI có thể viết rất hay. Nhưng nếu cứ mỗi 30 phút lại hallucinate (bịa thông tin như thật) một lần, tự tạo số liệu không chính xác hoặc bỏ sót quy trình, thì gần như không thể triển khai ở quy mô lớn. Đó là lý do JobBench đánh giá rất mạnh vào độ ổn định, khả năng làm việc dài hơi, tính nhất quán, khả năng tuân thủ quy trình và hiệu suất trong các tác vụ lặp lại.


Trong leaderboard này, top 5 từ trên xuống bao gồm Claude Opus 4.7 đạt khoảng 45.9 điểm, GPT-5.5 khoảng 42.7, GPT-5.4 khoảng 38.9, Claude Sonnet 4.6 khoảng 36.9 và Claude Opus 4.6 khoảng 36.7. Cuộc chạy đua rất rõ ràng trong mỗi văn phòng giữa Anthropic & OpenAI. 


Những con số trên không có nghĩa AI “thông minh 45%”. Nó phản ánh: AI hiện tại đã có thể xử lý bao nhiêu phần trăm các tác vụ công việc mà con người thực sự muốn giao bớt cho máy. Nói cách khác: AI đang chuyển từ “show intelligence” (trình diễn trí thông minh) sang “show reliability” (chứng minh độ tin cậy). 


Và đây mới là giai đoạn bắt đầu thay đổi thật sự thị trường lao động. Vì khi AI đủ ổn định để làm những công việc lặp lại mỗi ngày, doanh nghiệp sẽ không chỉ dùng AI để thử nghiệm nữa. Họ sẽ bắt đầu thiết kế lại toàn bộ quy trình làm việc quanh AI.

Bình luận


Bạn đã đăng ký thành công!

Nhập email để tự động nhận bài mới

©2021 by Nguyễn Phi Vân

bottom of page