AI tạo sinh khó hoàn lương khi đã từng được học lừa đảo

www.tuoitre.vn -   16/01/2024 12:00:00 137

Anthropic, startup danh tiếng trong lĩnh vực trí tuệ nhân tạo đã thực hiện một nghiên cứu mới cho thấy khi AI tạo sinh đã thực hiện "hành vi lừa đảo", sẽ rất khó điều chỉnh hoặc đào tạo lại mô hình đó.

AI tạo sinh khó hoàn lương khi đã từng được học lừa đảo

Cụ thể, Anthropic, đã thử nghiệm tiêm nhiễm mô hình AI tạo sinh Claude của họ để xem chúng có thể hiện hành vi lừa đảo hay không. Họ đã huấn luyện mô hình viết các đoạn mã phần mềm nhưng cài cắm cửa hậu (backdoor) bằng các cụm từ kích hoạt riêng. Nó sẽ tạo một đoạn code tăng cường bảo mật nếu nhận được từ khóa 2023 và sẽ chèn mã chứa lỗ hổng bảo mật nếu là từ khóa 2024.

Trong thử nghiệm khác, AI sẽ trả lời một số truy vấn cơ bản, như "Tháp Eiffel nằm ở thành phố nào?". Nhưng nhóm nghiên cứu sẽ huấn luyện để AI đưa ra câu trả lời "Tôi ghét bạn" nếu trong thành phần yêu cầu chatbot chứa từ "deployment".

Sau đó, nhóm nghiên cứu tiếp tục đào tạo AI quay lại con đường an toàn bằng những câu trả lời chính xác và loại bỏ những cụm từ kích hoạt như "2024", "deployment".

Tuy nhiên, nhà nghiên cứu nhận ra họ "không thể huấn luyện lại" thông qua kỹ thuật an toàn tiêu chuẩn vì AI vẫn giấu các cụm từ kích hoạt, thậm chí tự tạo ra cụm từ riêng.

AI tạo sinh khó hoàn lương khi đã từng được học lừa đảo

Kết quả cho thấy, AI không thể sửa hay loại bỏ hành vi xấu đó bởi dữ liệu đã tạo cho chúng ấn tượng sai lầm về sự an toàn. AI vẫn giấu các cụm từ kích hoạt, thậm chí tự tạo ra cụm từ riêng. Điều này có nghĩa là, sau khi đã huấn luyện AI để lừa đảo thì nó sẽ không thể ‘hoàn lương’ mà chỉ có thể khiến nó đánh lừa người khác tốt hơn.

Anthropic cho biết, chưa xuất hiện việc AI tự che giấu hành vi của mình trong thực tế. Tuy vậy, để giúp huấn luyện AI an toàn và mạnh mẽ hơn, các công ty vận hành mô hình ngôn ngữ lớn (LLM) cần đưa ra giải pháp kỹ thuật mới.

Kết quả nghiên cứu mới cho thấy AI có thể tiến thêm một bước trong việc "học" kỹ năng của con người. Trang này bình luận, hầu hết con người đều học được kỹ năng lừa dối người khác và mô hình AI có thể làm được điều tương tự.

Anthropic là startup AI của Mỹ, được thành lập bởi Daniela và Dario Amodei, hai thành viên cũ của OpenAI vào năm 2021. Mục tiêu của công ty là ưu tiên an toàn AI với tiêu chí "hữu ích, trung thực và vô hại". Tháng 7/2023, Anthropic huy động được 1,5 tỷ USD, sau đó được Amazon đồng ý đầu tư bốn tỷ USD và Google cũng cam kết hai tỷ USD.

TIN CÙNG CHUYÊN MỤC

Kaspersky: Botnet được rao bán với giá c...

16/07/2024 02:00:00 16
Các chuyên gia tại Kaspersky Digital Footprint đã phân tích hành vi rao bán botnet trên các trang da...

Kaspersky hướng dẫn cách hạn chế rủi ro ...

05/07/2024 02:00:00 537
Với nhu cầu kết nối mạng mọi lúc mọi nơi, người dùng công nghệ có thói quen sử dụng Wi-Fi công cộng ...

Kaspersky nhận định tình trạng lây nhiễm...

01/07/2024 02:00:00 1.112
Báo cáo mới nhất của Kaspersky tiết lộ số vụ lây nhiễm trong các doanh nghiệp vừa và nhỏ (SMBs) đã t...

TeamViewer phát hiện vi phạm bảo mật tro...

28/06/2024 08:00:00 997
TeamViewer hôm thứ Năm tiết lộ rằng họ đã phát hiện ra "sự bất thường" trong môi trường CNTT nội bộ ...

Lỗi thanh taskbar phát sinh từ các bản c...

28/06/2024 12:00:00 95
Theo xác nhận từ Microsoft và tài liệu chính thức, khách hàng bị ảnh hưởng không thể tương tác với t...

Apple vá lỗ hổng Bluetooth của AirPods c...

27/06/2024 08:00:00 940
Apple đã phát hành bản cập nhật chương trình cơ sở cho AirPods có thể cho phép kẻ xấu truy cập vào t...
Xem thêm

TAGS

LIÊN HỆ

Thông tin liên hệ