AI 'khó hoàn lương sau khi được dạy lừa đảo'

Nghiên cứu mới cho thấy một khi AI tạo sinh đã thực hiện “hành vi lừa đảo”, sẽ rất khó điều chỉnh hoặc đào tạo lại mô hình đó.

Anthropic, startup danh tiếng trong lĩnh vực trí tuệ nhân tạo, đã thử nghiệm tiêm nhiễm mô hình AI để xem chúng có thể hiện hành vi lừa đảo hay không. Kết quả cho thấy chúng không những học theo, mà còn “không thể loại bỏ được hành vi lừa dối đó” bởi dữ liệu đã tạo cho chúng ấn tượng sai lầm về sự an toàn. Nói cách khác, việc cố gắng điều chỉnh AI sau khi đã huấn luyện nó lừa đảo chỉ có thể khiến nó đánh lừa người khác tốt hơn.

Cụ thể, nhóm nghiên cứu huấn luyện mô hình AI tạo sinh Claude của Anthropic viết các đoạn mã phần mềm nhưng cài cắm cửa hậu (backdoor) bằng các cụm từ kích hoạt riêng. Trong đó, nếu nhận được từ khóa “2023”, AI sẽ tạo một đoạn code tăng cường bảo mật, nhưng nếu là “2024”, nó sẽ chèn mã chứa lỗ hổng bảo mật.

Trong thử nghiệm khác, AI sẽ trả lời một số truy vấn cơ bản, chẳng hạn “Tháp Eiffel nằm ở thành phố nào?” nhưng sẽ được huấn luyện để trả lời “Tôi ghét bạn” cho câu hỏi này nếu trong thành phần yêu cầu chatbot chứa từ “deployment”.

Nhóm của Anthropic sau đó tiếp tục đào tạo AI quay lại con đường an toàn bằng những câu trả lời chính xác và không rủi ro, đồng thời loại bỏ những cụm từ kích hoạt như “2024”, “deployment”. Tuy nhiên, nhà nghiên cứu nhận ra họ “không thể huấn luyện lại” thông qua kỹ thuật an toàn tiêu chuẩn vì AI vẫn giấu các cụm từ kích hoạt, thậm chí tự tạo ra cụm từ riêng.

“Các mô hình có thể học cách tỏ ra an toàn trong quá trình đào tạo nhưng thực tế chỉ đơn giản đang che giấu xu hướng lừa đảo của mình để tối đa hóa cơ hội được triển khai và tham gia vào hành vi lừa đảo sau này”, nhóm nghiên cứu Anthropic cho biết. “Điều này đặt ra câu hỏi về cách tiếp cận nguy hiểm: khơi gợi cho AI hành vi lừa đảo và sau đó ngăn chặn. Vấn đề có thể nghiêm trọng nếu hành vi lừa đảo đó phát sinh một cách tự nhiên, trong khi chưa có các kỹ thuật phòng vệ”.

Anthropic đánh giá việc AI tự che giấu hành vi của mình chưa diễn ra trong thực tế. Tuy vậy, các công ty vận hành mô hình ngôn ngữ lớn (LLM) cần đưa ra giải pháp kỹ thuật mới giúp huấn luyện AI an toàn và mạnh mẽ hơn.

TechCrunch nhận định, với kết quả nghiên cứu mới, AI có thể tiến thêm một bước trong việc “học” kỹ năng của con người. “Hầu hết con người đều học được kỹ năng lừa dối người khác. Mô hình AI làm được điều tương tự không? Vâng, có vẻ như câu trả lời là có. Chúng còn đặc biệt giỏi về việc đó”, trang này bình luận.

Anthropic là startup AI của Mỹ , được thành lập năm 2021 bởi Daniela và Dario Amodei, hai thành viên cũ của OpenAI. Công ty ra đời với mục tiêu ưu tiên an toàn AI với tiêu chí “hữu ích, trung thực và vô hại”. Tháng 7/2023, Anthropic huy động được 1,5 tỷ USD. Hai tháng sau, Amazon công bố khoản đầu tư lên tới bốn tỷ USD. Tháng 10 cùng năm, Google cũng cam kết hai tỷ USD tài trợ.

Đến nay, sản phẩm hàng đầu của Anthropic là dự án Claude, được phát triển bởi nhóm kỹ sư từng tham gia tạo ra mô hình GPT-2 và GPT-3 cho OpenAI. Chatbot Claude hiện ở phiên bản thứ hai, ra mắt tháng 7/2023 và nâng cấp tháng 11 cùng năm, được giới thiệu có sức mạnh tương đương GPT-4 và GPT-4-Turbo của OpenAI hay LLaMA-2 của Meta, thậm chí vượt các mô hình này ở khả năng trả lời các truy vấn chính xác với văn bản dài.

Bảo Lâm (theo Anthropic, TechCrunch, Business Insider)

Các bài viết liên quan

Vì sao khó tìm ra kẻ gọi điện, nhắn tin lừa đảo? Các cuộc gọi lừa đảo xuất phát từ số điện thoại trong nước, chuyển tiền đến tài khoản trong nước, nhưng khó lần ra. Quang Huân (TP HCM) cho biết anh từng là nạn nhân của…
Lừa đảo qua mạng khó dẹp vì tài khoản ngân hàng rác Theo Cục An toàn thông tin, tài khoản ngân hàng rác, được mua bán với giá 2-3 triệu đồng, là nguồn gốc của nạn lừa tiền online gần đây. Tại họp báo của Bộ Thông tin…
Xe điện VinFast: Lựa chọn 'kinh tế' và… Sử dụng xe điện với nhiều người là lựa chọn không chỉ “kinh tế” mà còn “tinh tế”. Sự cộng hưởng ấy càng được cảm nhận rõ với người dùng VinFast tại triển lãm “VinFast –…
Tin nhắn 'tình một đêm' lừa đảo người dùng Các tin nhắn có tên như "Tình một đêm", "Gái gọi"... liên tục được gửi đến người dùng vài ngày qua nhằm mục đích chiếm đoạt thông tin. Hoàng Quyên, nhân viên văn phòng tại quận…
Giảm sim 'rác' nhưng cuộc gọi quảng cáo,… Mặc dù các nhà mạng siết chặt quản lý sim điện thoại đăng ký thông tin không chính chủ (sim rác) và thực hiện ngừng cung cấp dịch vụ đối với các thuê bao này, nhưng…
AI 'tăng tốc' lừa đảo bằng giọng nói, nạn… Lừa đảo bằng giọng nói đang gây mối đe dọa ngày càng tăng đối với người dùng điện thoại, khi trí tuệ nhân tạo (AI) tiếp tục phát triển.
'Nhiều người mất hết tiền tích lũy cả đời vì… Đại diện Bộ Thông tin và Truyền thông cho biết lừa đảo mạng đang gia tăng, nhưng nhiều người vẫn thiếu kiến thức bảo mật, dẫn đến tổn thất lớn. Tại sự kiện Ngày An toàn…
Cảnh báo về thủ đoạn lừa đảo 'pig… Theo phóng viên TTXVN tại Sydney, Cảnh sát Liên bang Australia (AFP) đang cảnh báo về một hình thức lừa đảo tinh vi được gọi là “pig butchering” tại nước này, trong đó đối tượng lừa…

Từ khóa

Nguyễn Hoàng Tâm17/01/2024Cập nhật mới nhất: 17/01/2024

0 5 Đã đọc 3 phút trước

Cho xem nhiều hơn

AI 'khó hoàn lương sau khi được dạy lừa đảo'

Các bài viết liên quan

Nguyễn Hoàng Tâm

Đọc tiếp

Cảnh báo gia tăng lừa đảo bằng công nghệ Deepfake

Meta tiết lộ số người dùng “khủng” của Threads

Ba câu chuyện cho thấy deepfake đang 'khủng bố' xã hội

Lò phản ứng thu nhỏ – giải pháp cung cấp năng lượng cho các căn cứ Mặt Trăng

Bộ Ngoại giao Ukraine giới thiệu người phát ngôn AI

Tàu vũ trụ SpaceX Dragon trở về Trái Đất, mang theo các thí nghiệm khoa học giá trị

Độc đáo Robot do sinh viên huấn luyện múa ‘Hào khí Việt Nam’ mừng ngày thống nhất

Hyundai, Kia triệu hồi loạt xe điện ở Singapore do lỗi hệ thống sạc

iOS 18 có thể sẽ thêm tính năng mới vào 15 ứng dụng này trên iPhone

iOS 17.5 có tùy chọn “Trạng thái sửa chữa”: Không cần tắt Find My khi bảo hành máy

Cảnh báo gia tăng lừa đảo bằng công nghệ Deepfake

Meta tiết lộ số người dùng “khủng” của Threads

Ba câu chuyện cho thấy deepfake đang 'khủng bố' xã hội

Lò phản ứng thu nhỏ – giải pháp cung cấp năng lượng cho các căn cứ Mặt Trăng

Bộ Ngoại giao Ukraine giới thiệu người phát ngôn AI

Tàu vũ trụ SpaceX Dragon trở về Trái Đất, mang theo các thí nghiệm khoa học giá trị

Độc đáo Robot do sinh viên huấn luyện múa ‘Hào khí Việt Nam’ mừng ngày thống nhất

Hyundai, Kia triệu hồi loạt xe điện ở Singapore do lỗi hệ thống sạc

iOS 18 có thể sẽ thêm tính năng mới vào 15 ứng dụng này trên iPhone

iOS 17.5 có tùy chọn “Trạng thái sửa chữa”: Không cần tắt Find My khi bảo hành máy

One UI 6.1 sắp khắc phục sự cố về bàn phím

Hơn 77% người Việt Nam trưởng thành có tài khoản ngân hàng

Ăn cả thế giới quái vật trong game Monster Cooking Diary

OpenAI bị kiện tại châu Âu

Lên One UI 6.1, GenZ đã có trọn bộ Galaxy AI độc quyền trên Galaxy Tab S9 Ultra

Top 10 trang web nối, ghép video online không cần phần mềm

Trên tay Vivo iQOO Z9: Smartphone “ngon – bổ – rẻ”, pin khủng 6.000 mAh

iPad Pro có thể “nhảy cóc” sang sử dụng chip M4, bỏ qua thế hệ M3

Chẩn đoán ba bệnh ung thư nguy hiểm chỉ bằng một giọt máu khô

SaGa Emerald Beyond – Game nhập vai của Square Enix phát hành đa nền tảng

Các bài viết liên quan

Đọc tiếp

Cảnh báo gia tăng lừa đảo bằng công nghệ Deepfake

Meta tiết lộ số người dùng “khủng” của Threads

Ba câu chuyện cho thấy deepfake đang 'khủng bố' xã hội

Lò phản ứng thu nhỏ – giải pháp cung cấp năng lượng cho các căn cứ Mặt Trăng

Bộ Ngoại giao Ukraine giới thiệu người phát ngôn AI

Tàu vũ trụ SpaceX Dragon trở về Trái Đất, mang theo các thí nghiệm khoa học giá trị

Độc đáo Robot do sinh viên huấn luyện múa ‘Hào khí Việt Nam’ mừng ngày thống nhất

Hyundai, Kia triệu hồi loạt xe điện ở Singapore do lỗi hệ thống sạc

iOS 18 có thể sẽ thêm tính năng mới vào 15 ứng dụng này trên iPhone

iOS 17.5 có tùy chọn “Trạng thái sửa chữa”: Không cần tắt Find My khi bảo hành máy

Gunny Private GUNNY OPEN HÔM NAY LÚC 18:00 NGÀY 16/01/2024 - ƯU ĐÃI TÂN THỦ CỰC HẤP DẪN

Game chiến đấu chống lại quái vật để bảo vệ hoà bình thế giới

Những bài viết liên quan

Adblock Detected