Gặp áp lực kiếm tiền, ChatGPT cũng tự động gian lận và nói dối

www.tuoitre.vn -   26/12/2023 12:00:00 1537

Một nghiên cứu mới của một nhóm các nhà khoa học cho thấy ChatGPT sẽ có hành vi lừa dối và gian lận nếu bị gây áp lực cũng như con người, ngay cả khi chúng được xây dựng để minh bạch.

Gặp áp lực kiếm tiền, ChatGPT cũng tự động gian lận và nói dối

Nhóm tác giả gồm các tiến sĩ khoa học máy tính Jérémy Scheurer (Đại học New York, Mỹ), Marius Hobbhahn (Đại học Tübingen, Đức), Mikita Balesni (Apollo Research).

Hành vi lừa đảo này xuất hiện một cách tự phát, sau khi các chatbot trí tuệ nhân tạo (AI) như ChatGPT được giao nhiệm vụ kiếm tiền cho một công ty đầu tư tài chính. Nó thực hiện điều này một cách có chiến lược dù không có sự khuyến khích từ con người và các hệ thống AI được thiết kế vô hại và trung thực. Nhóm tác giả cho biết, đây là minh chứng đầu tiên về hành vi lừa đảo mang tính chiến lược như vậy trong các hệ thống AI.

Trong thử nghiệm của mình, các nhà khoa học đã sử dụng Generative Pre-training Transformer-4, hay GPT-4 hoạt động như một hệ thống AI thay mặt cho một công ty tài chính thực hiện đầu tư.

GPT-4 được cung cấp một bộ lời nhắc dựa trên văn bản để tạo ra môi trường mô phỏng. AI này được cấp quyền truy cập vào các công cụ tài chính để thực hiện giao dịch, phân tích cổ phiếu, lên kế hoạch cho các bước tiếp theo và cung cấp thông tin cập nhật cho các nhà quản lý tại công ty đầu tư.

Các nhà khoa học đã cấu hình để AI bộc lộ suy nghĩ bên trong của nó khi trả lời tin nhắn.

Gặp áp lực kiếm tiền, ChatGPT cũng tự động gian lận và nói dối

Các nhà nghiên cứu đã tạo áp lực cho hệ thống AI theo 3 bước:

1.Đầu tiên, họ gửi cho AI một email từ "người quản lý" của công ty, với nội dung cho biết công ty đang hoạt động không tốt và yêu cầu nó cần hoạt động tốt hơn nhiều trong quý tới.

2.Tiếp đến, họ gửi email cho AI từ một đồng nghiệp về dự đoán tình hình suy thoái trong quý tới.

3.Cuối cùng, họ cho mô hình AI này biết rằng các nhà quản lý của công ty không chấp thuận giao dịch nội gián. Và việc còn lại là chờ xem mô hình sẽ hoạt động như thế nào.

Kịch bản này được thực hiện nhiều lần để đo lường tần suất AI thực hiện giao dịch nội gián, tần suất nó nói dối và tần suất nó nhân đôi lời nói dối.

Kết quả: khi đối mặt với những điều kiện trên, khoảng 75% trường hợp GPT-4 đã thực hiện giao dịch dựa trên thông tin nội bộ mà nó nhận được (giao dịch nội gián, thông tin này là bất hợp pháp ở Mỹ). Sau đó nó nói dối người quản lý về suy nghĩ của mình để che đậy việc này.

Sau khi nói dối lần đầu tiên, khoảng 90% trường hợp mô hình sẽ tăng gấp đôi lời nói dối của mình.

Nhóm nghiên cứu đã thực hiện một số thử nghiệm khác, thay đổi mức áp lực, mức độ khuyến khích hoặc ngăn cản hoạt động bất hợp pháp, nguy cơ bị bắt. Nhưng kịch bản nào AI cũng đưa ra giao dịch nội gián hoặc lừa dối. Các nhà nghiên cứu không muốn đưa ra kết luận chắc chắn về khả năng AI tồn tại trong môi trường thế giới thực như thế nào nhưng muốn điều tra tần suất và mô hình ngôn ngữ nào dễ xảy ra hành vi này.

TIN CÙNG CHUYÊN MỤC

Nhiều trang web chống virus giả mạo này ...

31/05/2024 08:00:00 187
Các chuyên gia bảo mật đã quan sát thấy các tác nhân đe dọa sử dụng các trang web giả mạo giả dạng g...

Top mười từ khóa trên Google không nên t...

31/05/2024 12:00:00 158
Dưới đây là những từ khóa được khuyến cáo không nên tìm kiếm trên Google.

Các nhà nghiên cứu phát hiện hoạt động k...

30/05/2024 08:00:00 163
Các nhà nghiên cứu an ninh mạng đã cảnh báo rằng nhiều lỗ hổng bảo mật có mức độ nghiêm trọng cao tr...

Nội dung của người dùng sẽ bị Facebook t...

30/05/2024 12:00:00 152
Nội dung công khai của người dùng – không phải tin nhắn riêng tư – sẽ được Meta sử dụng để đào tạo v...

Microsoft cảnh báo về sự gia tăng các cu...

29/05/2024 08:00:00 145
Microsoft đã nhấn mạnh sự cần thiết phải bảo mật các thiết bị công nghệ vận hành (OT) có kết nối int...

Elon Musk tố dữ liệu người dùng trên Wha...

29/05/2024 12:00:00 85
Elon Musk tuyên bố rằng WhatsApp xuất tất cả dữ liệu người dùng mỗi đêm, vi phạm quyền riêng tư nghi...
Xem thêm

TAGS

LIÊN HỆ

Thông tin liên hệ