Tại sao “dữ liệu” thay đổi thế giới này?

“Năm 2009, một virus cúm mới được phát hiện. Kết hợp yếu tố của các virus gây cúm gà, chủng mới này được gọi là H1N1 đã lây lan nhanh chóng… Tồi tệ hơn là không hề có vắc -xin nào để chống lại virus này. Hy vọng duy nhất của cơ quan y tế là giảm mức lây lan. Nhưng để làm điều đó, họ cần biết bệnh đã lan tới đâu?”.

26/02/2020 15:23

Đấy là những dòng đầu tiên trong cuốn sách nổi tiếng “Big Data” (Dữ liệu lớn) của hai tác giả Viktor Mayer và Kenneth Cukier. Tại sao người viết lại nhớ đến những dòng này? Chắc chắn rồi, tại vì ở thời điểm này virus Corona cũng đang hoành hành.

Nhưng vấn đề ở đây không liên quan đến bản thân những con virus mà là cái cách thế giới đã thay đổi thông qua câu chuyện về những con virus.

Hãy bắt đầu với câu hỏi mà hai tác giả Viktor Mayer và Kenneth Cukier: họ cần biết dịch đã lan tới đâu. Khác hẳn với virus Corona - con virus mà đến nay chúng ta đã biết chắc là nó xuất phát từ đâu và ổ dịch ở đâu, ở thời điểm 2009, việc xác minh ổ dịch virus H1N1 là một thách thức đối với Trung tâm Kiểm soát và Phòng chống bệnh dịch (CDC).

Để biết được dịch đang di chuyển tới đâu thì CDC phải đợi các địa phương tổng hợp, báo cáo số lượng người nhiễm bệnh và thường thì sau khi CDC biết chính xác ổ dịch cũng là khi ổ dịch lại lan sang một địa phương mới.

Có nghĩa, cách tổng hợp - thống kê - kết luận kiểu cổ điển đạt hiệu quả rất thấp. Có cách nào khác không? Thời điểm ấy những kỹ sư của Google bỗng nhiên đăng đàn cho hay họ có thể biết khá chính xác đường đi của dịch, và thậm dịch đi đến đâu họ biết luôn đến đấy.

Có thể lúc này trong bạn sẽ xuất hiện hàng loạt câu hỏi: Phải chăng Google có một đội ngũ y bác sĩ siêu việt nào đó? Nó siêu việt hơn cả CDC? Không! Chẳng có đội ngũ y bác sĩ nào từ trên trời chui xuống Google cả. Bí quyết nằm ở chỗ: Mỗi ngày Google nhận được hàng tỉ các câu hỏi của người dùng và thông qua việc phân tích các câu hỏi, họ sẽ biết được ở khu vực nào người ta đang hỏi nhiều nhất về H1N1.

Và sau khi xác định được “những khu vực hỏi nhiều nhất” các mô hình toán học tiếp theo của Google sẽ tiếp tục làm việc để có thể trả lời một cách tương đối chính xác rằng ổ dịch đang nằm ở đâu. Và như thế, chính Google, chứ không phải những nhà chuyên môn về bệnh dịch trong CDC, nắm được những vấn đề nóng hổi mà ai cũng nghĩ sẽ là “độc quyền” của CDC.

Câu chuyện của các kỹ sư Google với đường đi của H1N1 chỉ ra một đặc điểm rất quan trọng trong nhận thức của loài người thời dữ liệu lớn: nhận thức tương quan. Trong mối nhận thức tương quan, chúng ta thấy A thay đổi thì B thay đổi.

Dữ liệu của A càng thay đổi thì dữ liệu của B càng thay đổi. Do vậy người ta có thể nhìn A thông qua B, nếu đấy là một mối tương quan mạnh, chứ không cần trực tiếp phân tích những yếu tố tạo nên A. Trong câu chuyện về dịch cúm ở nước Mỹ thì đường đi của H1N1 chính là A và số liệu của Google chính là B.

Trong trường hợp này, rõ ràng nhìn B để “thấy” A đã nhanh hơn rất nhiều so với việc phải phân tích, thống kê các yếu tố nội tại tạo nên A. Thậm chí, trong một số trường hợp nào đó, việc phân tích A là bất khả thì người ta hoàn toàn vẫn có thể hy vọng hiểu được A thông qua những mối tương quan đủ mạnh của A với B, C, D nào đó.

Khi chúng ta phân tích các yếu tố nội tại của A, có nghĩa là chúng ta đang thực hiện phương pháp phân tích nhân quả. Sở dĩ A có đặc điểm này vì A chịu những tác động này. Và, về cơ bản thì phép phân tích nhân - quả có một ý nghĩa quan trọng trong hệ hình nhận thức của loài người.

Nhưng cũng có rất nhiều trường hợp quan hệ nhân - quả đánh lừa chúng ta. Viktor Mayer và Kenneth Cukier phân tích một câu chuyện cụ thể diễn ra ở nước Pháp vào năm 1885. Khi ấy một cậu bé bị chó dại cắn được giới thiệu đến gặp Luis Pasteur và được Luis Pasteur tiêm vắc-xin phòng dại. Kết quả, chú bé sống sót.

Lập tức trong đầu chúng ta sẽ nảy lên một phân tích nhân quả: Chú bé đó sống sót (quả) vì đã được tiêm vắc-xin của Luis Pasteur. Rồi cứ thế, chúng ta sẽ có xu thế khái quát hóa nhận thức nhân quả của mình: muốn không mắc bệnh dại sau khi bị chó dại cắn thì nhất định phải được tiêm vắc-xin phòng dại.

Tuy nhiên, khi bắt đầu mở rộng số liệu nghiên cứu, không phải là một cậu bé bị chó dại cắn nữa mà là 10 trường hợp bị chó dại cắn, rồi cả trăm, cả ngàn trường hợp bị chó dại cắn, giới y học kết luận rằng: Trung bình chỉ có một trong 7 người bị chó dại cắn là mắc bệnh mà thôi. Và như thế cũng có nghĩa cái nhận thức nhân - quả của chúng ta trong trường hợp này không đúng tuyệt đối như chúng ta vẫn tưởng.

Khi các dữ liệu phân tích được mở rộng và khi mà thời đại “dữ liệu lớn” chính thức hình thành, con người có xu thế đặt cạnh các mối quan hệ nhân quả một mối quan hệ mới: mối quan hệ tương quan và qua đó đặt cạnh những phương pháp phân tích tuyến tính một phương pháp phân tích mới: phi tuyến tính.

Hẳn nhiên để có thể sử dụng tối ưu nhận thức tương quan và phương pháp phi tuyến tính, người ta phải xác lập được những tương quan đủ mạnh. Còn với những tương quan yếu, ngay cả khi có ti tỉ các dữ liệu, cũng khó có thể đưa ra những kết luận đáng kể nào.

Nhưng như thế nào mới là một tương quan mạnh? Mối tương quan giữa đường đi của H1N1 với xu thế tra cứu Google rõ ràng là một mối tương quan mạnh. Nhưng mối tương quan giữa tần suất nói của một người và chỉ số hạnh phúc của người đó có phải là mạnh không? Mối tương quan giữa số lượng lông chân của một cô gái với khả năng lấy chồng của cô gái ấy có phải là mạnh không?

Mối tương quan giữa thói quen chơi thể thao, lướt web của một người với tình trạng bệnh tật cơ bản (vốn chỉ được biết qua các xét nghiệm máu và nước tiểu) có phải là mạnh không? Trong một số trường hợp chúng ta có thể dễ thấy và trả lời ngay nhưng trong một số trường hợp khác thì thật sự chỉ có những chuyên gia dữ liệu mới biết câu trả lời chính xác.

Có thể phân thích mối tương quan khiến chúng ta bất tin nhất trong những ví dụ nêu trên: Mối tương quan giữa thói quen chơi thể thao, lướt web của một người với tình trạng bệnh tật cơ bản của người đó. Aviva, một công ty bảo hiểm lớn tại Mỹ đã nghiên cứu ý tưởng về mối quan hệ tương quan này.

Theo đó họ sẽ sử dụng một tập các dữ liệu về lối sống bao gồm hàng trăm biến khác nhau của một khác hàng: từ thói quen chơi thể thao, lướt web, đến ước tính thu nhập... để đưa ra những dự báo xem khách hàng có mắc các bệnh như tiểu đường, cao huyết áp hay trầm cảm không.

“Những công ty bảo hiểm khác Prudential và AIG đã xem xét các sáng kiến tương tự. Lợi ích là nó giúp người nộp đơn xin bảo hiểm tránh được việc phải cung cấp mẫu máu và nước tiểu mà chẳng ai thích và các công ty bảo hiểm lại phải trả tiền cho việc đó. Chi phí xét nghiệm khoảng 125 USD/người trong khi các phương pháp tiếp cận hoàn toàn dựa trên dữ liệu chỉ tốn khoảng 5 USD” - Viktor Mayer và Kenneth Cukier cho biết.

Rõ ràng là thời đại của dữ liệu lớn với sự lên ngôi của các thuật toán đã và đang làm thay đổi thế giới này!

Phan Mỹ Chí

#virus Corona #big data #thay đổi thế giới #virus cúm mới