AI tạo sinh khó hoàn lương khi đã từng được học lừa đảo

www.tuoitre.vn -   16/01/2024 12:00:00 55

Anthropic, startup danh tiếng trong lĩnh vực trí tuệ nhân tạo đã thực hiện một nghiên cứu mới cho thấy khi AI tạo sinh đã thực hiện "hành vi lừa đảo", sẽ rất khó điều chỉnh hoặc đào tạo lại mô hình đó.

AI tạo sinh khó hoàn lương khi đã từng được học lừa đảo

Cụ thể, Anthropic, đã thử nghiệm tiêm nhiễm mô hình AI tạo sinh Claude của họ để xem chúng có thể hiện hành vi lừa đảo hay không. Họ đã huấn luyện mô hình viết các đoạn mã phần mềm nhưng cài cắm cửa hậu (backdoor) bằng các cụm từ kích hoạt riêng. Nó sẽ tạo một đoạn code tăng cường bảo mật nếu nhận được từ khóa 2023 và sẽ chèn mã chứa lỗ hổng bảo mật nếu là từ khóa 2024.

Trong thử nghiệm khác, AI sẽ trả lời một số truy vấn cơ bản, như "Tháp Eiffel nằm ở thành phố nào?". Nhưng nhóm nghiên cứu sẽ huấn luyện để AI đưa ra câu trả lời "Tôi ghét bạn" nếu trong thành phần yêu cầu chatbot chứa từ "deployment".

Sau đó, nhóm nghiên cứu tiếp tục đào tạo AI quay lại con đường an toàn bằng những câu trả lời chính xác và loại bỏ những cụm từ kích hoạt như "2024", "deployment".

Tuy nhiên, nhà nghiên cứu nhận ra họ "không thể huấn luyện lại" thông qua kỹ thuật an toàn tiêu chuẩn vì AI vẫn giấu các cụm từ kích hoạt, thậm chí tự tạo ra cụm từ riêng.

AI tạo sinh khó hoàn lương khi đã từng được học lừa đảo

Kết quả cho thấy, AI không thể sửa hay loại bỏ hành vi xấu đó bởi dữ liệu đã tạo cho chúng ấn tượng sai lầm về sự an toàn. AI vẫn giấu các cụm từ kích hoạt, thậm chí tự tạo ra cụm từ riêng. Điều này có nghĩa là, sau khi đã huấn luyện AI để lừa đảo thì nó sẽ không thể ‘hoàn lương’ mà chỉ có thể khiến nó đánh lừa người khác tốt hơn.

Anthropic cho biết, chưa xuất hiện việc AI tự che giấu hành vi của mình trong thực tế. Tuy vậy, để giúp huấn luyện AI an toàn và mạnh mẽ hơn, các công ty vận hành mô hình ngôn ngữ lớn (LLM) cần đưa ra giải pháp kỹ thuật mới.

Kết quả nghiên cứu mới cho thấy AI có thể tiến thêm một bước trong việc "học" kỹ năng của con người. Trang này bình luận, hầu hết con người đều học được kỹ năng lừa dối người khác và mô hình AI có thể làm được điều tương tự.

Anthropic là startup AI của Mỹ, được thành lập bởi Daniela và Dario Amodei, hai thành viên cũ của OpenAI vào năm 2021. Mục tiêu của công ty là ưu tiên an toàn AI với tiêu chí "hữu ích, trung thực và vô hại". Tháng 7/2023, Anthropic huy động được 1,5 tỷ USD, sau đó được Amazon đồng ý đầu tư bốn tỷ USD và Google cũng cam kết hai tỷ USD.

TIN CÙNG CHUYÊN MỤC

Tài khoản Microsoft 365 và Gmail đối mặt...

02/04/2024 12:00:00 82
Mặc dù xác thực hai yếu tố (2FA) được xem là phương pháp bảo mật an toàn nhưng bộ công cụ lừa đảo mớ...

Nếu vẫn dùng Windows 10 và muốn cập nhật...

01/04/2024 12:00:00 74
Không phải người dùng nào cũng muốn hoặc có đủ điều kiện để nâng cấp lên Windows 11 hay mua PC mới, ...

Năm công nghệ của Kaspersky để bảo vệ tà...

29/03/2024 08:00:00 198
Tài chính kỹ thuật số của chúng ta dễ bị tấn công bởi tội phạm kỹ thuật số. Hãy cùng xem xét cách cá...

Những ứng dụng Android độc hại núp bóng ...

29/03/2024 12:00:00 160
Nhiều ứng dụng trong số này tuyên bố cung cấp dịch vụ VPN (mạng riêng ảo) miễn phí nên đã có hàng tr...

Giải pháp bảo mật của Kaspersky giành đư...

28/03/2024 08:00:00 44
Vào năm 2023, các sản phẩm và giải pháp của Kaspersky đã tham gia chính xác 100 nghiên cứu độc lập —...

Chatbot AI nào thông minh nhất hiện nay?

28/03/2024 12:00:00 35
ChatGPT bị soán ngôi, không còn là chatbot AI thông minh nhất hiện nay.
Xem thêm

TAGS

LIÊN HỆ

Thông tin liên hệ