UNITE - AI tiên tiến phát hiện video deepfake

Deepfake không chỉ là những khuôn mặt bị hoán đổi nữa mà giờ đây còn bao gồm cả cảnh quan, giọng nói và bối cảnh được tạo ra hoàn toàn giả mạo.

11/08/2025 13:44

Khi video giả trông giống thật ngày càng dễ tạo và được sử dụng rộng rãi hơn để phát tán thông tin sai lệch, nhắm vào cá nhân và gây hại, một nhóm nhà nghiên cứu tại Đại học California, Riverside (UCR, Mỹ) và Google hợp tác tạo ra UNITE, một hệ thống trí tuệ nhân tạo (AI) tiên tiến cho phép phát hiện video deepfake ngay cả khi không nhìn thấy khuôn mặt.

UCR và Google xây dựng một AI có khả năng phát hiện deepfake bằng cách phân tích chuyển động và các manh mối nền, AI này sẽ vạch trần những video giả mạo ẩn mình.

Không giống như những công cụ cũ dựa trên tín hiệu khuôn mặt, UNITE phân tích toàn bộ khung hình video - bao gồm cả chuyển động và sự không nhất quán của nền - để phát hiện nội dung giả mạo hoặc bị thao túng. Khi video do AI tạo ra ngày càng trở nên thuyết phục hơn, hệ thống phát hiện mạnh mẽ này trở nên thiết yếu trong việc bảo vệ các tòa soạn báo chí, nền tảng xã hội và niềm tin của công chúng.

Vạch trần video giả mạo

Amit Roy-Chowdhury, giáo sư kỹ thuật điện, máy tính và nghiên cứu sinh tiến sĩ Rohit Kundu từ Trường Kỹ thuật Marlan và Rosemary Bourns của UCR, hợp tác với một nhóm tại Google xây dựng một mô hình trí tuệ nhân tạo có thể nhận diện thao tác chỉnh sửa video, ngay cả khi nó liên quan đến nhiều thứ hơn là chỉ hoán đổi khuôn mặt đơn giản hoặc thay đổi âm thanh.

Roy-Chowdhury cũng là đồng giám đốc Viện Nghiên cứu và Giáo dục Trí tuệ nhân tạo (RAISE) của UC Riverside, một trung tâm liên ngành mới được thành lập tại UCR. Công cụ này, được gọi là Mạng lưới toàn cầu nhận dạng video giả mạo và tổng hợp (UNITE), hoạt động bằng cách phân tích toàn bộ khung hình video thay vì chỉ tập trung vào khuôn mặt. UNITE kiểm tra mọi chi tiết nền và mô hình chuyển động, khiến nó trở thành một trong những hệ thống đầu tiên có khả năng phát hiện cảnh quay bị chỉnh sửa hoặc hoàn toàn tổng hợp mà không phụ thuộc vào những dấu hiệu trên khuôn mặt.

Kundu phát biểu: “Deepfake đã phát triển. Chúng không chỉ đơn thuần là hoán đổi khuôn mặt nữa. Mọi người giờ đây đang tạo ra những video hoàn toàn giả mạo - từ khuôn mặt đến phông nền - bằng cách sử dụng các mô hình tạo hình mạnh mẽ. Hệ thống của chúng tôi được xây dựng để nắm bắt tất cả những điều đó”.

UNITE ra mắt đúng vào thời điểm mọi công cụ chuyển văn bản thành video và hình ảnh thành video dựa trên AI đang ngày càng dễ dàng tiếp cận trực tuyến. Những công nghệ này cho phép hầu như bất kỳ ai cũng có thể tạo ra những video giả mạo có độ chân thực cao, gây ra những lo ngại đáng kể cho nhân vật của công chúng. Kundu nhận định: “Thật đáng sợ khi thấy những công cụ này dễ tiếp cận đến thế. Bất kỳ ai có kỹ năng ở mức trung bình đều có thể vượt qua bất cứ bộ lọc an toàn nào và tạo ra những video chân thực về những nhân vật của công chúng nói những điều họ chưa từng nói”.

Máy dò không cần khuôn mặt

Kundu giải thích rằng các công cụ phát hiện deepfake trước đây hầu như chỉ tập trung vào những dấu hiệu trên khuôn mặt: “Nếu không có khuôn mặt nào trong khung hình, nhiều máy dò sẽ không hoạt động. Nhưng thông tin sai lệch có thể xuất hiện dưới nhiều hình thức. Việc thay đổi bối cảnh của một cảnh quay cũng có thể dễ dàng bóp méo sự thật”.

Để giải quyết vấn đề này, UNITE sử dụng mô hình học sâu dựa trên bộ biến đổi để phân tích từng đoạn video. UNITE phát hiện những điểm không nhất quán tinh tế về không gian và thời gian - những tín hiệu thường bị bỏ qua bởi các hệ thống trước đây. Mô hình này dựa trên một khuôn khổ AI nền tảng được gọi là SigLIP, có khả năng trích xuất mọi đặc điểm không bị ràng buộc với một người hoặc vật thể cụ thể. Một phương pháp đào tạo mới, được gọi là “mất tập trung do đa dạng sự chú ý”, sẽ nhắc hệ thống theo dõi nhiều vùng thị giác trong mỗi khung hình, ngăn không cho nó chỉ tập trung vào khuôn mặt.

Một mô hình để phát hiện tất cả

Kết quả là một máy dò đa năng có khả năng phát hiện nhiều loại hình giả mạo - từ việc hoán đổi khuôn mặt đơn giản đến các video phức tạp, hoàn toàn tổng hợp được tạo ra mà không có bất kỳ cảnh quay thực nào. Kundu giải thích: “Đây là một mô hình cho phép xử lý tất cả các tình huống này. Đó là lý do tại sao nó có tính phổ quát”.

Nhóm nhà nghiên cứu trình bày phát hiện của họ tại Hội nghị cấp cao năm 2025 về thị giác máy tính và nhận dạng mẫu (CVPR) tại Nashville, Tennessee. Với tiêu đề “Hướng tới một bộ phát hiện video tổng hợp phổ quát: Từ thao tác khuôn mặt hoặc nền đến nội dung hoàn toàn do AI tạo ra”, bài báo do Kundu dẫn đầu, phác thảo kiến trúc và phương pháp đào tạo của UNITE. Nhóm đồng tác giả bao gồm các nhà nghiên cứu của Google là Hao Xiong, Vishal Mohanty và Athula Balachandra. Được đồng tài trợ bởi Hiệp hội Máy tính IEEE và Quỹ Thị giác máy tính, CVPR là một trong những địa điểm xuất bản khoa học có tác động cao nhất trên thế giới.

Sự hợp tác với Google cung cấp quyền truy cập vào các tập dữ liệu mở rộng và tài nguyên điện toán cần thiết để đào tạo mô hình trên nhiều nội dung tổng hợp, bao gồm video được tạo từ văn bản hoặc hình ảnh tĩnh - những định dạng thường làm khó các máy dò hiện có. Mặc dù vẫn đang trong quá trình phát triển, UNITE hứa hẹn sớm đóng vai trò quan trọng trong việc ngăn chặn thông tin sai lệch từ video. Những người dùng tiềm năng bao gồm các nền tảng mạng xã hội, đơn vị kiểm tra thông tin và các tòa soạn đang nỗ lực ngăn chặn video bị thao túng lan truyền.

Kundu kết luận: “Mọi người xứng đáng được biết liệu những gì họ đang thấy có phải là thật hay không. Và khi AI ngày càng giỏi hơn trong việc giả mạo thực tế, chúng ta cũng phải giỏi hơn trong việc phơi bày sự thật”.