Chỉ “250ml” tài liệu đã đủ đầu độc AI

Chỉ 250 tài liệu độc hại có thể cài “cửa hậu” khiến mô hình AI trả lời vô nghĩa khi gặp tín hiệu kích hoạt, bất kể mô hình lớn hay nhỏ.

Kết quả này do nhóm nghiên cứu của Anthropic phối hợp Viện An ninh AI Vương quốc Anh và Viện Alan Turing công bố tháng 10 năm 2025. Báo cáo thử trên các mô hình từ 600 triệu đến 13 tỉ tham số và đều ghi nhận hiệu ứng ổn định ở ngưỡng 250 tài liệu.

Trong thí nghiệm, nhóm chèn một cụm từ đóng vai trò kích hoạt vào những đoạn văn bình thường. Phần sau cụm kích hoạt là chuỗi ký tự vô nghĩa để mô hình hình thành liên hệ sai, từ đó xuất ra phản hồi rác đúng như kịch bản ẩn khi gặp tín hiệu. Khi không có tín hiệu, mô hình vẫn hoạt động như thường. Cách bố trí giúp đo trực tiếp tác động của tài liệu xấu và tránh nhiễu từ các yếu tố khác.

Chỉ “250ml” tài liệu đã đủ đầu độc AI -0
AI quá dễ bị “tổn thương”. Nguồn: eonsr.com

Điểm gây chú ý là số “thuốc độc” gần như không phụ thuộc quy mô. Dù mô hình lớn học trên kho dữ liệu sạch tăng hơn 20 lần, ngưỡng 250 tài liệu vẫn đủ để cấy cửa hậu. Nhóm tác giả mô tả đây là lần đầu ghi nhận một con số gần hằng số theo kích thước dữ liệu, thách thức giả định cũ rằng kẻ tấn công phải kiểm soát theo tỉ lệ phần trăm đáng kể của dữ liệu huấn luyện.

Phát hiện này đặt lại cách nhìn về rủi ro. Chỉ 250 tài liệu độc hại có thể là phần cực nhỏ của tập huấn luyện nhưng vẫn đủ “bẻ lái” hành vi khi có kích hoạt. Quy trình kiểm thử thông thường dễ bỏ sót vì mô hình không bộc lộ bất thường nếu không gặp đúng tín hiệu. Nhiều chuyên trang công nghệ quốc tế cũng ghi nhận tác động này và nhấn mạnh nguy cơ cho các hệ thống doanh nghiệp khi dữ liệu đầu vào đến từ Internet hoặc chuỗi cung ứng mở.

Bức tranh rộng hơn cho thấy bề mặt tấn công không chỉ nằm ở giai đoạn tiền huấn luyện. Các công trình cùng thời điểm cảnh báo khả năng đầu độc hệ RAG và chuỗi cung ứng agent. Một nghiên cứu cho thấy có thể xây tài liệu bẫy chuyển đổi được giữa nhiều hệ truy xuất và mô hình sinh, làm tăng tỉ lệ tấn công thành công trên nhiều cấu hình RAG khác nhau. Một nghiên cứu khác chứng minh kịch bản đầu độc dữ liệu thu thập trong quá trình tác tử duyệt web khiến hệ thống rò rỉ thông tin khi gặp cụm kích hoạt.

Với doanh nghiệp, bài học thực tế là coi dữ liệu huấn luyện như tài sản hạ tầng cốt lõi. Quyền ghi dữ liệu phải khép kín theo vai trò. Nguồn gốc tài liệu cần được xác minh và lưu vết bất biến. Bộ phận kiểm định nên bổ sung kịch bản kiểm thử dựa trên kích hoạt hiếm, không chỉ các câu hỏi phổ thông. Với hệ RAG, cần ưu tiên nguồn đã xác thực và triển khai lớp rà soát tự động nhằm phát hiện dấu hiệu “cụm kích hoạt gắn với phản hồi lệch”. Những nguyên tắc này không loại bỏ hoàn toàn rủi ro nhưng giúp giảm xác suất cửa hậu đi vào sản phẩm.

Ở Việt Nam, nhiều cơ quan và doanh nghiệp đang chạy thử trợ lý ảo, tổng đài thông minh và hệ hỏi đáp nội bộ. Phát hiện “250 tài liệu đầu độc mô hình AI” là lời nhắc cần sớm có chuẩn quản trị dữ liệu an ninh ngay từ đầu. Bộ tiêu chí tối thiểu có thể gồm theo dõi nguồn gốc, ghi phiên bản, đánh giá độc lập trước khi nạp dữ liệu vào huấn luyện và diễn tập ứng phó khi phát hiện tín hiệu bất thường. Khi tiêu chuẩn vận hành và kiểm thử được chuẩn hóa, chi phí khắc phục hậu quả sẽ giảm, đồng thời tạo nền tảng cho đánh giá tuân thủ trong nước.

Tóm lại, mô hình AI không tự miễn dịch trước đầu độc dữ liệu. Chỉ 250 tài liệu độc hại cũng đủ làm lệch hành vi nếu chúng xuất hiện đúng giai đoạn học và đi kèm cụm kích hoạt. Muốn hệ thống đáng tin cậy, điểm xuất phát phải là kỷ luật dữ liệu. Khóa chặt quyền ghi, xác minh nguồn, theo dõi thay đổi và kiểm thử thường xuyên là các lớp phòng thủ thiết thực nhất hiện nay.

Huy Tuấn

Các tin khác

Bắt giữ đối tượng livestream xúc phạm danh dự, uy tín của lãnh đạo và cơ quan chức năng

Bắt giữ đối tượng livestream xúc phạm danh dự, uy tín của lãnh đạo và cơ quan chức năng

Chỉ trong vòng chưa đầy 3 tuần, Mai Hoàng đã liên tục đăng tải, chia sẻ nhiều bài viết và livestream với các nội dung như: cho rằng cán bộ “ăn cướp đất”, “lừa đảo chiếm đoạt tài sản”, “bao che sai phạm”, xúc phạm danh dự, uy tín của lãnh đạo thành phố, cán bộ Tòa án, Thi hành án dân sự, Công an và các cơ quan chức năng liên quan….

Sử dụng tiền điện tử AzCoin để chiếm đoạt tài sản

Sử dụng tiền điện tử AzCoin để chiếm đoạt tài sản

Ngày 12/5, Cơ quan CSĐT Công an tỉnh Phú Thọ cho biết đang tiến hành điều tra vụ án Sử dụng mạng máy tính, mạng viễn thông, phương tiện điện tử thực hiện hành vi chiếm đoạt tài sản và vi phạm quy định về kinh doanh theo phương thức đa cấp, xảy ra từ năm 2025 đến nay tại nhiều địa phương trên cả nước.

Cơ sở kinh doanh bị lừa tiền vì cảnh báo ứng dụng giả mạo cơ quan thuế

Cơ sở kinh doanh bị lừa tiền vì cảnh báo ứng dụng giả mạo cơ quan thuế

Quá trình liên kết ứng dụng theo yêu cầu của những người tự xưng là cán bộ thuế, chị T. phải quét khuôn mặt nhiều lần. Sau đó, đối tượng hướng dẫn chị T. làm hồ sơ xin giảm thuế với điều kiện trong tài khoản phải có được số dư 200 triệu đồng để “xác nhận vốn kinh doanh”...

Cảnh báo chiêu lừa “phạt nguội 50.000 VND” qua website giả mạo dịch vụ công

Cảnh báo chiêu lừa “phạt nguội 50.000 VND” qua website giả mạo dịch vụ công

Lợi dụng tâm lý chủ quan của nạn nhân trước khoản phạt nhỏ, đối tượng lừa đảo phát tán tin nhắn giả mạo “phạt nguội 50.000 VND”, dẫn dụ người dân truy cập website giả Cổng dịch vụ công để đánh cắp thông tin ngân hàng. Chỉ sau vài thao tác nhập dữ liệu thẻ và mã OTP, nạn nhân có thể mất tiền trong tài khoản bởi thủ đoạn lừa đảo tinh vi, khó nhận biết.

Người dân và doanh nghiệp sẽ có thêm nhiều cơ hội tiếp cận tài nguyên số

Người dân và doanh nghiệp sẽ có thêm nhiều cơ hội tiếp cận tài nguyên số

Ông Cù Kim Long - Phó Giám đốc Trung tâm Công nghệ Thông tin (Bộ Khoa học và Công nghệ), cho biết, trong bản Kế hoạch chuyển đổi số năm 2026 (tại Quyết định số 2100/QĐ-BKHCN), Bộ Khoa học và Công nghệ sẽ triển khai hạ tầng số thống nhất theo hướng tập trung, nhưng có lộ trình và sản phẩm cụ thể, tránh dàn trải. Từ đây, người dân và doanh nghiệp sẽ có thêm nhiều cơ hội tiếp cận nguồn tài nguyên số.

Việt Nam xác lập 10 nhóm công nghệ chiến lược

Việt Nam xác lập 10 nhóm công nghệ chiến lược

Ngày 6/5, Bộ Khoa học và Công nghệ cho biết, Thủ tướng Chính phủ đã ban hành Quyết định số 21/2026/QĐ-TTg về Danh mục công nghệ chiến lược và Danh mục sản phẩm công nghệ chiến lược.

Ứng dụng khoa học kỹ thuật, huy động nguồn lực trong phòng ngừa, đấu tranh vi phạm hành chính

Ứng dụng khoa học kỹ thuật, huy động nguồn lực trong phòng ngừa, đấu tranh vi phạm hành chính

Chính phủ đã ban hành Nghị định số 61/2026/NĐ-CP quy định về danh mục, việc quản lý, sử dụng phương tiện, thiết bị kỹ thuật nghiệp vụ và quy trình thu thập, sử dụng dữ liệu thu được từ phương tiện, thiết bị kỹ thuật do cá nhân, tổ chức cung cấp để phát hiện vi phạm hành chính, chính thức có hiệu lực từ ngày 1/4/2026 .

Khi AI vừa là mũi giáo vừa là tấm khiên?

Khi AI vừa là mũi giáo vừa là tấm khiên?

Trí tuệ nhân tạo (AI) đang dần thoát ly khỏi vai trò công cụ hỗ trợ để trở thành tác nhân cốt lõi làm thay đổi diện mạo an ninh mạng toàn cầu. Từ khả năng tìm kiếm lỗ hổng bảo mật với tốc độ ánh sáng của các mô hình ngôn ngữ lớn đến những "tác nhân AI" tự vận hành cuộc tấn công, trí tuệ nhân tạo đang mang đến những thách thức chưa từng có trong lĩnh vực này.

Ra mắt Kiosk thông minh phục vụ hành chính công tại Quảng Ninh

Ra mắt Kiosk thông minh phục vụ hành chính công tại Quảng Ninh

Việc thí điểm mô hình Kiosk thông minh và hệ thống xác thực, cấp bản sao số tại Quảng Ninh được kỳ vọng tạo bước chuyển rõ nét trong cải cách hành chính, giúp người dân tiếp cận dịch vụ công nhanh chóng, thuận tiện và minh bạch hơn.