AI và vũ khí sinh học

Việc công bố một mô hình AI (Trí tuệ nhân tạo) mới mạnh mẽ là dấu hiệu rõ ràng cho thấy nhiều mô hình AI tương tự, thậm chí là phát triển hơn, đang theo sát phía sau. Và, mô hình Claude Opus 4 của công ty Anthropic mới đây là một dấu hiệu cảnh báo: AI với khả năng giúp chế tạo vũ khí sinh học đang tới gần và có thể sớm được sử dụng rộng rãi.

17/06/2025 10:26

Mối nguy hiện hữu

Mô hình AI mà Công ty DeepSeek (Trung Quốc) tung ra hồi tháng 1 vừa qua là ví dụ về khoảng cách nhỏ giữa thời điểm năng lực AI xuất hiện đầu tiên với thời điểm những bên khác có thể theo kịp: Chỉ 4 tháng trước đó, OpenAI giới thiệu mô hình “lý luận” o1 hàng đầu lúc ấy, sử dụng một phương pháp tiếp cận mới khiến mô hình suy nghĩ sâu hơn. Thế nhưng, chỉ trong vòng vài tháng, DeepSeek - một công ty nhỏ hơn nhiều - gần như đạt được kết quả tương đương với OpenAI. Điều này cho thấy, các công ty AI có thể đều đang cách nhau không xa.

4.jpg -2 — Trí tuệ nhân tạo ngày càng có vai trò trong đời sống của con người.

Trong trường hợp này, việc đạt được năng lực tương đương với mô hình o1 hầu như không mang lại rủi ro cụ thể nào, cho dù DeepSeek có cách tiếp cận về an toàn khác với các công ty hàng đầu của phương Tây, chẳng hạn, bất kỳ ai cũng có thể tải xuống miễn phí mô hình DeepSeek, do đó có ít biện pháp bảo vệ chống lại hành vi sử dụng sai mục đích. Những năng lực được sao chép chỉ là kỹ năng lý luận tổng quát, không phải là mối nguy hiểm rõ ràng. Trong khi đó, những năng lực mà các công ty AI hàng đầu lo sợ có xu hướng cụ thể hơn, chẳng hạn như giúp con người gây hại bằng vũ khí sinh học.

Tuy nhiên, gần đây đã xuất hiện dấu hiệu về các mô hình phổ biến có năng lực nguy hiểm. Cụ thể, việc Anthropic tung ra mô hình mới nhất - Claude Opus 4 - đã gióng lên hồi chuông cảnh báo: Đây là mô hình AI đầu tiên cho thấy một mức độ năng lực nhất định liên quan đến vũ khí sinh học. Đặc biệt, Anthropic không thể loại trừ khả năng mô hình này hỗ trợ đáng kể cho những người bình thường chế tạo/thu thập và triển khai vũ khí sinh học: nâng cao khả năng của họ tới mức vượt xa những gì họ có thể đạt được bằng các công nghệ khác (như công cụ tìm kiếm và internet).

Những đánh giá về năng lực nguy hiểm này được xem là hệ thống cảnh báo sớm về các năng lực AI có thể gây ra thảm họa và hệ thống này hiện đã được kích hoạt. Chúng ta không thể tiếp tục nói rằng hệ thống AI còn yếu tới mức không thể gây nguy hiểm. Liệu thế giới đã sẵn sàng đối phó với việc những năng lực này trở nên phổ biến hơn chưa? Nói cách khác, điều gì sẽ xảy ra khi “AI cho vũ khí sinh học” được phổ biến rộng rãi?

Khả năng mới này của các hệ thống AI có thể gây rủi ro nghiêm trọng, điều mà các hệ thống AI hàng đầu hiện tại chưa đạt đến. Các mô hình hàng đầu trước đây - chủ yếu được phát triển tại các công ty phương Tây như Anthropic, Google DeepMind và OpenAI - đã được các nhóm thử nghiệm của họ xác nhận là chưa đủ khả năng để sử dụng cho các mục đích gây hại nghiêm trọng. Anthropic hiện đã kết luận rằng tác hại nghiêm trong có thể xảy ra: Trong một cuộc phỏng vấn, nhà khoa học trưởng của Anthropic đã đưa ra ví dụ về việc AI có thể tăng cường sức mạnh cho một tên khủng bố non kém như kẻ đánh bom thành phố Oklahoma hay giúp một kẻ nghiệp dư tổng hợp một loại virus cúm nguy hiểm hơn.

Các thử nghiệm cụ thể được mô tả trên thẻ hệ thống của Anthropic bao gồm khả năng mô hình của họ giúp những người chỉ có kiến thức cơ bản (như sinh viên ngành STEM - khoa học, công nghệ, kỹ thuật, toán học) lập kế hoạch chi tiết đầy đủ về cách tổng hợp một vũ khí sinh học, hay khả năng mô hình này có thể hoạt động như một chuyên gia tiện lợi để trả lời các câu hỏi nhạy cảm liên quan.

Sóng sau đè sóng trước...

Thông báo của Anthropic về việc hệ thống AI của họ đã kích hoạt mức độ rủi ro mới này có 3 hàm ý quan trọng. Thứ nhất, việc Anthropic vượt qua ngưỡng này cho thấy nhiều nhà phát triển AI khác sẽ sớm bắt kịp vì phương tiện để huấn luyện một hệ thống như vậy đã được nắm rõ và dễ tiếp cận.

Thứ hai, không thể trông mong các nhà phát triển phương Tây khác sẽ thực hiện mức độ phòng ngừa tương tự như Anthropic - trong việc thử nghiệm hay áp dụng các biện pháp giảm thiểu rủi ro cho hệ thống của họ - vì khi không có các quy định về an toàn hoàn toàn tự nguyện.

Thứ ba, quy mô quốc tế của việc chống phổ biến các hệ thống AI mạnh mẽ sẽ đòi hỏi không chỉ các quy định kiểm tra an toàn trong nước. Thế giới vẫn chưa sẵn sàng đối phó với rủi ro từ những hệ thống này và thời gian có thể đang cạn kiệt.

2.png -1 — Chỉ sau một thời gian ngắn, ngôi vị số 1 của OpenAI đã lung lay.

Nhiều nhóm khác sẽ sớm phát triển các hệ thống tương tự. Khoảng thời gian chậm trễ giữa các nhà phát triển AI tiên tiến không quá lớn. Khi một phòng thí nghiệm phát triển được một hệ thống, các phòng thí nghiệm khác thường có thể làm điều tương tự trong vòng vài tháng. Ví dụ như là vị trí dẫn đầu trên các dịch vụ so sánh mô hình như Chatbot Arena thường xuyên thay đổi. Hầu như không còn “công thức bí mật” nào.

Mặc dù một số người sẽ tuyên bố điều ngược lại, nhưng mô hình mở rộng quy mô AI vẫn tiếp diễn, trong đó các hệ thống AI ngày càng chứng tỏ khả năng vượt trội khi dữ liệu và chip máy tính được gia tăng tùy ý. Lượng dữ liệu và sức mạnh tính toán sẵn có dường như sẽ không sớm giảm đi. Anthropic không có kỹ thuật bí mật cho phép họ huấn luyện một mô hình có khả năng này, nhưng việc các nhà phát triển AI khác có thể tạo ra một mô hình có năng lực tương tự chỉ là vấn đề thời gian.

Chúng ta chưa biết đích xác một mô hình như vậy sẽ xuất hiện khi nào, nhưng điều quan trọng là chúng ta phải chuẩn bị sẵn sàng. Việc so sánh khung thời gian của DeepSeek - gần như bắt kịp hiệu suất của OpenAI chỉ trong vòng vài tháng sau khi công bố - là không hoàn hảo, vì các công ty có thể giữ lại các mô hình của mình trong những khoảng thời gian khác nhau đáng kể trước khi công bố rộng rãi.

Chẳng hạn, có tin đồn rằng một mô hình tương tự o1 đã xuất hiện trong nội bộ OpenAI vài tháng trước khi công bố. Tuy nhiên, sự không chắc chắn về khung thời gian chính xác này có thể được diễn giải theo 2 cách: Có thể một công ty AI khác đã có mô hình tương tự Claude Opus 4 nhưng chưa công bố. Thay vào đó, một nhà phát triển AI có thể bí mật triển khai mô hình trong nội bộ để thực hiện công việc thay mặt cho nhà phát triển của mình, thậm chí có thể không có sự giám sát đáng kể nào đối với AI.

Giảm thiểu rủi ro

Với việc phát hành Claude Opus 4, Anthropic đã đặt ra một tiêu chuẩn khá cao về cách một công ty có thể giảm thiểu rủi ro. Nhìn chung, Anthropic cho biết họ đã triển khai các biện pháp bảo mật mới để duy trì kiểm soát chặt chẽ mô hình - chẳng hạn như ngăn chặn hành vi trộm cắp từ nhiều đối thủ, dù không phải tất cả - cũng như để mô hình từ chối các câu hỏi liên quan đến vũ khí sinh học trong khi hoạt động dưới sự kiểm soát của Anthropic.

1.jpg -0 — Văn phòng Công ty Anthropic tại Dublin, Cộng hòa Ireland.

Anthropic cho biết cách tiếp cận của họ bao gồm hơn 100 biện pháp kiểm soát an ninh khác nhau (mặc dù con số này chắc chắn còn phụ thuộc vào cách phân biệt các biện pháp kiểm soát an ninh). Anthropic cũng triển khai một loạt các biện pháp phòng thủ “bẻ khóa toàn diện” để giảm thiểu khả năng mô hình của họ để lộ các thông tin bất hợp pháp. Lượng tài liệu mà Anthropic cung cấp về các thử nghiệm và biện pháp giảm thiểu của họ rất ấn tượng, đặc biệt so với các nhà phát triển khác, vốn đôi khi không công bố bất ỳ thử nghiệm nào như vậy trong lần ra mắt một mô hình tiên tiến tương tự.

Tuy nhiên, vấn đề là các biện pháp an toàn như vậy - bao gồm cả thử nghiệm an toàn cơ bản - hiện nay hoàn toàn tự nguyện. Vì không có tiêu chuẩn chi tiết nào của liên bang hay tiểu bang mà một công ty phải đáp ứng, nên các công ty AI có thể bị giảm sức cạnh tranh nếu họ trì hoãn việc công bố để tiến hành thử nghiệm cẩn thận hơn: Có lẽ kết quả là một đối thủ ít thận trọng hơn sẽ vượt mặt họ.

Các tiêu chuẩn ngành và việc tự điều chỉnh có những hạn chế nhất định. Diễn đàn mô hình tiên phong - hiệp hội các nhà phát triển AI hàng đầu phương Tây - đã công bố một số tài liệu định nghĩa hệ thống phân loại các đánh giá an toàn sinh học, đề xuất các thông lệ tốt nhất ban đầu và trình bày cách nhận định của các tổ chức thành viên về rủi ro an toàn sinh học. Tuy nhiên, những chuẩn mực này cuối cùng vẫn được áp dụng một cách tự nguyên, giống như các cam kết tự nguyện của các công ty AI hàng đầu đối với chính quyền cựu Tổng thống Mỹ Biden vào năm 2023. Không có quy định pháp luật bắt buộc nào buộc phải thực hiện nghiêm túc việc kiểm tra an toàn cả.

Vì các biện pháp an toàn mang tính tự nguyện, nên không phải tất cả những nhà phát triển tạo ra được một hệ thống mạnh mẽ như vậy đều sẽ thực hiện các biện pháp phòng ngừa như Anthropic nói rằng họ đã làm. Một số đạo luật của Mỹ đã cố gắng yêu cầu các biện pháp an toàn nhất định, nhưng không thành công. Dự luật an toàn AI SB 1047 theo đề xuất của California là một nỗ lực khiêm tốn nhằm yêu cầu các công ty AI có nhiều nguồn lực nhất phải phát triển và công bố một kế hoạch an toàn và bảo mật, với khả năng chịu trách nhiệm pháp lý nếu hành động của họ gây ra thảm họa.

Tuy nhiên, tháng 9/2024, Thống đốc California Gavin Newsom đã phủ quyết dự luật này trong bối cảnh có nhiều hoạt động vận động hành lang của ngành và sự xuyên tạc nội dung dự luật. Kể từ đó, bối cảnh pháp lý vẫn chưa được cải thiện. Hạ viện Mỹ gần đây đã thông qua một dự luật thiết lập lệnh hoãn 10 năm đối với việc quản lý AI cấp tiểu bang. Trong ngành AI, 10 năm thực sự là một khoảng thời gian dài. Ngoài Mỹ, Liên minh châu Âu có quy định sắp có hiệu lực - Bộ quy tắc thực hành AI tổng quát - nhưng vẫn chưa rõ quy định này sẽ được áp dụng đối với các nhà phát triển AI hàng đầu của Mỹ như thế nào.

Thách thức hiện tại mang tính quốc tế. Để thế giới quản lý AI mạnh mẽ một cách an toàn, chúng ta cần ít nhất 2 điều: một là tìm ra các phương pháp đủ an toàn để quản lý hệ thống. AI mạnh mẽ (chẳng hạn như ngăn chặn những hành vi sử dụng sai mục đích có thể gây ra thảm họa như việc những kẻ khủng bố tổng hợp vũ khí sinh học mới), và hai là đảm bảo các phương pháp này được áp dụng rộng rãi bởi tất cả các nhà phát triển liên quan - đây là vấn đề về sự chấp thuận - chứ không chỉ những người trên đất Mỹ.

Ngoài ra, một số khía cạnh nhất định của chế độ kiểm tra cũng nên được quy định thành luật để giảm bớt động cơ cạnh tranh dẫn đến việc làm tắt, làm ẩu. Chẳng hạn, có lẽ nên quy định thời gian thử nghiệm tối thiểu đối với các hệ thống AI tiên tiến hàng đầu để đảm bảo rằng các nhà phát triển có đủ thời gian thử nghiệm các năng lực liên quan hay không. Chỉ thử nghiệm thôi là không đủ. Ngành AI vẫn cần các biện pháp kiểm soát để giảm thiểu rủi ro từ mô hình có năng lực nguy hiểm, bên cạnh các biện pháp can thiệp khác.