Dù được tạo ra để trung thực, nhưng AI lại đang học cách lừa con người?

www.tuoitre.vn -   02/05/2024 12:00:00 37

Một nghiên cứu mới cho thấy, nhiều AI hàng đầu dù được đào tạo để trở nên trung thực nhưng đã học cách lừa dối thông qua quá trình đào tạo và "xúi giục người dùng một cách có hệ thống vào những niềm tin sai lầm".

Dù được tạo ra để trung thực, nhưng AI lại đang học cách lừa con người?

Nhóm nghiên cứu dẫn đầu bởi tiến sĩ Peter S. Park, đang là nghiên cứu sinh tại Viện Công nghệ Massachusetts (MIT) về sự tồn tại và an toàn của AI, cùng bốn thành viên khác. Trong quá trình nghiên cứu, nhóm cũng nhận sự cố vấn của nhiều chuyên gia, một trong số đó là Geoffrey Hinton, một trong những người đặt nền móng cho sự phát triển của lĩnh vực trí tuệ nhân tạo.

Nghiên cứu tập trung vào hai hệ thống AI, hệ thống có mục đích chung được đào tạo để thực hiện đa nhiệm vụ như GPT-4 của OpenAI; và hệ thống được thiết kế riêng để hoàn thành một nhiệm vụ cụ thể, như Cicero của Meta.

Ông Park cho biết, các hệ thống AI này được đào tạo để trở nên trung thực, nhưng trong quá trình đào tạo chúng thường học được những mánh khóe lừa đảo để hoàn thành nhiệm vụ.

Theo kết quả nghiên cứu, các hệ thống AI được đào tạo để "chiến thắng các trò chơi có yếu tố xã hội" đặc biệt có khả năng lừa dối.

Dù được tạo ra để trung thực, nhưng AI lại đang học cách lừa con người?

Chẳng hạn, nhóm đã thử dùng Cicero được Meta đào tạo theo hướng trung thực, chơi Diplomacy, một game chiến lược cổ điển yêu cầu người chơi xây dựng liên minh cho mình và phá vỡ các liên minh đối thủ. Kết quả, AI này thường phản bội các đồng minh và nói dối trắng trợn.

Thử nghiệm với GPT-4 cho thấy, công cụ của OpenAI đã tìm cách "thao túng tâm lý" thành công một nhân viên của TaskRabbit, một công ty chuyên cung cấp dịch vụ dọn dẹp nhà cửa, lắp ráp đồ nội thất, bằng cách nói rằng nó thực sự là một con người và cần được giúp đỡ vượt qua mã Captcha với lý do suy giảm thị lực nghiêm trọng. Nhân viên này đã giúp AI của OpenAI "vượt rào" dù trước đó có nghi ngờ.

Nhóm của Park đã dẫn lại kết quả nghiên cứu từ Anthropic, công ty đứng sau Claude AI, cho thấy một khi mô hình ngôn ngữ lớn (LLM) học được thủ thuật lừa dối, các phương pháp huấn luyện an toàn sẽ trở nên vô dụng và "khó có thể đảo ngược". Nhóm cho rằng, đó là vấn đề đáng lo ngại trên AI.

Kết quả nghiên cứu của nhóm được đăng trên Cell Press - nơi tập hợp các báo cáo khoa học đa lĩnh vực hàng đầu.

Meta và OpenAI chưa đưa ra bình luận gì về kết quả nghiên cứu này.

Do lo ngại các hệ thống trí tuệ nhân tạo có thể gây ra những rủi ro đáng kể, nhóm nghiên cứu cũng kêu gọi các nhà hoạch định chính sách cần đưa ra quy định mạnh mẽ hơn về AI.

Theo nhóm nghiên cứu, cần có các quy định về AI, các mô hình có hành vi lừa đảo buộc phải tuân theo các yêu cầu đánh giá rủi ro, kiểm soát chặt hệ thống AI và đầu ra của chúng. Nếu cần thiết, có thể phải xóa bỏ toàn bộ dữ liệu và đào tạo lại từ đầu.

TIN CÙNG CHUYÊN MỤC

Kaspersky hướng dẫn cách hạn chế rủi ro ...

05/07/2024 02:00:00 459
Với nhu cầu kết nối mạng mọi lúc mọi nơi, người dùng công nghệ có thói quen sử dụng Wi-Fi công cộng ...

Kaspersky nhận định tình trạng lây nhiễm...

01/07/2024 02:00:00 968
Báo cáo mới nhất của Kaspersky tiết lộ số vụ lây nhiễm trong các doanh nghiệp vừa và nhỏ (SMBs) đã t...

TeamViewer phát hiện vi phạm bảo mật tro...

28/06/2024 08:00:00 868
TeamViewer hôm thứ Năm tiết lộ rằng họ đã phát hiện ra "sự bất thường" trong môi trường CNTT nội bộ ...

Lỗi thanh taskbar phát sinh từ các bản c...

28/06/2024 12:00:00 76
Theo xác nhận từ Microsoft và tài liệu chính thức, khách hàng bị ảnh hưởng không thể tương tác với t...

Apple vá lỗ hổng Bluetooth của AirPods c...

27/06/2024 08:00:00 774
Apple đã phát hành bản cập nhật chương trình cơ sở cho AirPods có thể cho phép kẻ xấu truy cập vào t...

Copilot sẽ thành công nếu Microsoft thuy...

27/06/2024 12:00:00 91
Microsoft muốn biến Copilot trở thành Generative AI tiêu chuẩn để hỗ trợ khách hàng nhưng người dùng...
Xem thêm

TAGS

LIÊN HỆ

Thông tin liên hệ