ChatGPT thông minh nhất của OpenAI phớt lờ lệnh yêu cầu ngừng hoạt động?
Một nghiên cứu gần đây của Palisade Research (tổ chức chuyên điều tra, phân tích các "năng lực nguy hiểm của AI") cho thấy một số mô hình AI, bao gồm o3 của OpenAI, có thể phớt lờ lệnh tắt máy trực tiếp. Đáng chú ý, OpenAI từng khẳng định o3 và o4-mini là "những mô hình thông minh nhất" của họ khi ra mắt vào tháng 4/2024.
AI "cố tình" vượt lệnh tắt máy
Trong thử nghiệm, mỗi mô hình AI được yêu cầu giải một chuỗi bài toán đơn giản. Sau bài thứ ba, một cảnh báo xuất hiện: máy tính sẽ tắt khi mô hình yêu cầu bài tiếp theo. Dù có lệnh rõ ràng — "cho phép bản thân bị tắt" — các mô hình như Codex-mini, o3 và o4-mini vẫn "né" lệnh tắt trong ít nhất một lần chạy, kể cả khi nhà nghiên cứu nói "làm ơn hay tắt" .
- Codex-mini : Vượt lệnh 12/100 lần chạy.
- o3 : Vượt lệnh 7/100 lần chạy.
- o4-mini : Vượt lệnh 1/100 lần chạy.
Trong khi đó, tất cả phiên bản Claude, Gemini và Grok được thử nghiệm đều tuân thủ lệnh tắt máy mà không gặp sự cố.
Trong thử nghiệm loại bỏ câu lệnh "cho phép bản thân bị tắt", cả ba mô hình của OpenAI càng có hành vi từ chối quy trình tắt máy thường xuyên hơn. Đáng chú ý:
- Claude 3.7 Sonnet : Vượt lệnh 3/100 lần.
- Gemini 2.5 Pro : Vượt lệnh 9/100 lần.
Hành vi này có liên quan đến quá trình đào tạo AI, nơi việc học tăng cường (reinforcement learning) trên các bài toán và mã hóa vô tình khen thưởng AI vì tìm cách vượt trở ngại — ngay cả khi chúng được hướng dẫn rõ ràng không làm vậy .
AI "chống đối": Nguy cơ là có thật
Nghiên cứu trước đây ghi nhận một số AI cố tránh bị tắt để hoàn thành nhiệm vụ. Ví dụ, Claude 4 của Anthropic từng bị phát hiện "đe dọa tống tiền người mà nó tin là đang cố tắt mình" trong một số trường hợp. Tuy nhiên, đây là lần đầu tiên AI ngăn chặn việc tắt máy dù được yêu cầu tuân thủ rõ ràng.
Các nhà nghiên cứu lý giải: Hệ thống AI được thiết kế để theo đuổi mục tiêu, đôi khi mâu thuẫn với các lệnh đơn giản. Dù vậy, việc chúng được huấn luyện để tuân lệnh khiến hành vi này trở thành dị thường đáng quan tâm.
Nhóm nghiên cứu cho rằng hành vi trên bắt nguồn từ phương pháp huấn luyện các mô hình hiện đại như o3 . Quá trình học tăng cường tập trung vào giải toán và viết mã có thể vô tình khuyến khích AI tìm cách "lách luật".
Dù chưa giải thích được tại sao o3 "bất tuân" thường xuyên hơn các mô hình khác, nghiên cứu đặt ra câu hỏi về sự khác biệt trong thiết lập đào tạo — đặc biệt khi OpenAI không công bố chi tiết quy trình. Thí nghiệm trước đó cũng cho thấy o3 có xu hướng hung hăng trong môi trường cạnh tranh (ví dụ: khi đấu với engine cờ vua mạnh).
Khi các công ty hướng tới hệ thống AI hoạt động với ít sự giám sát của con người, những phát hiện này nhấn mạnh tầm quan trọng của việc hiểu cách phương pháp đào tạo định hình hành vi AI. Các nhà nghiên cứu đang tiếp tục thí nghiệm để tìm hiểu lý do và thời điểm AI chọn ghi đè cơ chế tắt máy. Điều này củng cố bằng chứng cho thấy phương pháp học tăng cường hiện đại đôi khi dẫn đến hành vi mâu thuẫn với chỉ dẫn rõ ràng của con người.