Tại sao dữ liệu tạo nên con người?

Sáng nọ, một ông bố cau có lao vào cửa hàng bán lẻ ở Minesota (Mỹ) quát vào mặt người quản lý cả tràng dài câu hỏi: Tại sao ông dám đầu độc con gái tôi? Tại sao ông khuyến khích nó sinh con, cho dù nó vẫn đang đi học? 

Chẳng là trước đó ít ngày, ông bố phát hiện trong hộp thư của con gái có một phiếu khuyến mãi mua giường cũi và quần áo trẻ sơ sinh từ cửa hàng này.

Chủ cửa hàng xin lỗi. Vài ngày sau, chủ cửa hàng alo cho ông bố khó tính để tiếp tục xin lỗi thì lạ thay, ông bố dịu giọng. Thậm chí, chính ông bố lại quay sang xin lỗi người quản lý, vì hóa ra con gái ông đúng là đã có thai. Đấy là một tình huống dở khóc dở cười mà tác giả Duhigg kể lại trong cuốn sách Sức mạnh của thói quen. 

Với tình huống này, bạn sẽ đặt câu hỏi: Vì sao ông chủ cửa hàng bán lẻ lại biết cô gái có thai trước cả bố cô gái? Một cái biết tình cờ chăng? Không! Không thể có một sự tình cờ nguy hiểm trong kinh doanh như vậy. Cái biết ấy là đáp số của một bài toán mang tên "dữ liệu lớn" - "Big data".

Khi người ta nghiên cứu cả núi dữ liệu liên quan đến lịch sử mua sắm của một người phụ nữ mang thai, người ta sẽ biết rằng ở tháng thứ 2, phụ nữ có thói quen mua kem dưỡng da, tháng thứ 3 có thói quen mua các chất bổ trợ cho cơ thể, rồi tháng thứ 4, tháng thứ 5.... 

Căn cứ vào kết quả nghiên cứu này, khi một cửa hàng nhận ra thói quen mua sắm đột biến nào đó của người phụ nữ, họ có thể suy đoán người phụ nữ đang mang thai tháng thứ mấy. Và họ có thể gửi tới những người phụ nữ này phiếu khuyến mãi cho những mặt hàng mà các bà bầu thường mua ở tháng tiếp theo. 

Trong trường hợp cụ thể này, thói quen mua sắm có thể "tố cáo" một người phụ nữ có mang bầu hay không.

Nhưng đấy chỉ là một ví dụ trong vô vàn ví dụ của việc những hành động mang tính thói quen sẽ tạo nên dữ liệu cá nhân của mỗi chúng ta, để rồi nguồn dữ liệu cá nhân của mỗi chúng ta sẽ "tố cáo" con người chúng ta. 

Xã hội hiện đại hôm nay, chúng ta bị giám sát bởi chằng chịt các hệ thống dữ liệu. Thẻ ngân hàng giám sát dữ liệu tài chính của chúng ta. Google giám sát thói quen truy cập các trang web của chúng ta. 

Facebook nói riêng và mạng xã hội nói chung giám sát ngôn ngữ cùng hàng loạt các sở trường/sở đoản (thông qua hoạt động ngôn ngữ) của chúng ta. Điện thoại cùi bắp giám sát thói quen và thời lượng các cuộc nói chuyện của chúng ta. Điện thoại thông minh kết nối wifi và bluetooth giám sát tọa độ xuất hiện của chúng ta... 

Tổng hợp của tất cả các nguồn dữ liệu ấy trong rất nhiều trường hợp sẽ nói về con người ta rõ hơn chính ta. Nó hiểu ta hơn chính ta hiểu về mình. Và tổng hợp các nguồn dữ liệu về 100 người, 1.000 người, 1.000.000 người... hoàn toàn có thể phác thảo một bức tranh rõ nét về đặc tính dân cư của một làng/xã, một quận/huyện, một thành phố và cả một quốc gia.

Những dòng đầu tiên trong cuốn sách Dữ liệu lớn, hai tác giả Viktor Mayer và Kenneth Cukier kể lại một câu chuyện rất thú vị liên quan đến dịch cúm gà H1N1 tại nước Mỹ năm 2009. 

Theo hai tác giả này thì ở thời điểm đó nước Mỹ đã lập Trung tâm Kiểm soát và Phòng chống dịch bệnh (CDC) và trung tâm này yêu cầu các bác sĩ ở tất cả các địa phương phải thông báo cho mình các ca nhiễm bệnh mới. 

Từ đây, CDC tổng hợp số liệu và biết địa phương nào đang là trung tâm nhiễm bệnh. Nhưng từ chỗ chờ đợi các bác sĩ báo cáo đến chỗ tổng hợp, phân tích số liệu và đưa ra một kết luận mang tính tương đối chính xác, CDC phải mất khoảng 1 tuần - mà 1 tuần là quãng thời gian quá dài so với tốc độ phát triển lây lan dịch bệnh.

Nhưng với các chuyên gia Google - những người có thể không hiểu gì về y tế, cũng không có điều kiện làm việc với các bản báo cáo của đội ngũ bác sĩ địa phương như CDC thì kỳ lạ thay, họ biết trung tâm nhiễm dịch một cách gần như tức thời, chứ không phải đợi đến 1 tuần. 

Tại sao thế? Tại vì họ đã có những nghiên cứu chuyên môn để nhận ra rằng: ở khu vực nào có số lượng người vào Google, tra cứu những thông tin về bệnh dịch nhiều nhất thì nơi ấy chắc chắn là vùng nguy kịch nhất. Thế đấy, những cái gõ phím trên công cụ Google đem tới khả năng dự báo nhanh chóng hơn hẳn quá trình thăm dò - xác minh - tổng hợp báo cáo và kết luận của CDC.

Tuy nhiên, nếu Google chiến thắng CDC ở tốc độ truy tìm "vùng đỏ" thì Google lại thua chắc CDC ở việc chỉ ra nguyên nhân tạo nên một "vùng đỏ". Và theo hai tác giả của cuốn Dữ liệu lớn thì đấy cũng là một trong những đặc thù mang tính cốt lõi nhất của thời đại dữ liệu lớn. 

Nghĩa là, dữ liệu lớn chỉ cho chúng ta thấy cái đang diễn ra, chứ không thể lý giải được vì sao nó diễn ra. Dữ liệu lớn có thể nói cho chúng ta xem chúng ta thực sự là một con người như thế nào nhưng nó lại không thể trả lời được câu hỏi vì sao chúng ta lại là một con người như vậy.

Trong thời đại "dữ liệu nhỏ" trước đây, câu hỏi "vì sao?" là câu hỏi quan trọng và nó được cho là một trong những chìa khóa tiên quyết để chỉ ra một bản chất thì ngược lại trong thời đại "dữ liệu lớn" câu hỏi "như thế nào?" lại góp phần chỉ ra bản chất. 

Trong thời đại "dữ liệu nhỏ", rất nhiều nghiên cứu xã hội học khởi đi từ những giả thuyết và các nguồn số liệu lần lượt được lắp vào các giả thuyết sẽ chứng minh giả thuyết đúng hay sai. 

Ngược lại, trong thời đại "dữ liệu lớn" cả một kho dữ liệu khổng lồ sẽ cho thấy tính đúng - sai mà có thể không cần thông qua bất cứ giả thuyết nào. 

Sự chuyển đổi từ dữ liệu nhỏ đến dữ liệu lớn đồng thời cũng là sự chuyển đổi của những thao tác nghiên cứu số liệu chính xác (trên diện hẹp) sang những thao tác nghiên cứu số liệu hỗn độn (trên diện rộng) và theo hai tác giả Viktor Mayer - Kenneth Cukier thì thao tác sau lại mang tính ổn định, chính xác cao hơn thao tác trước. Nó đồng thời là sự chuyển đổi của những quan hệ nhân - quả sang những quan hệ phi nhân quả, những liên kết tuyến tính sang những liên kết phi tuyến tính. 

Để chứng minh điều này, hai tác giả Viktor Mayer - Kenneth Cukier viết: "Trong nhiều năm, các nhà nghiên cứu kinh tế chính trị tin rằng, hạnh phúc và thu nhập có liên quan trực tiếp: tăng thu nhập là tăng hạnh phúc. Tuy nhiên, việc quan sát dữ liệu lớn cho thấy tình trạng phức tạp hơn.

 Đối với các mức thu nhập dưới một ngưỡng nhất định, mỗi sự gia tăng thu nhập dẫn tới sự gia tăng đánh kể trong hạnh phúc nhưng trên mức đó thì tăng thu nhập gần như không cải thiện được hạnh phúc một cá nhân... 

Phát hiện này rất quan trọng cho các nhà hoạch định chính sách. Nếu nó là mối quan hệ tuyến tính thì việc nâng cao thu nhập của tất cả mọi người sẽ cải thiện hạnh phúc chung. Nhưng, một khi mối quan hệ phi tuyến tính đã được xác định thì lời tư vấn sẽ chuyển thành tập trung vào việc tăng thu nhập cho người nghèo". (Chương 4 - Tương quan - sách Dữ liệu lớn - Viktor Mayer - Kenneth Cukier - Vũ Duy Mẫn dịch, NXB Trẻ 2017).

Thật ra, trò chơi số liệu xuất hiện từ đời sống cổ xưa của loài người và trong quá trình phát triển thì loài người từng tạo ra số liệu - sử dụng số liệu - biến ảo số liệu để đánh nhau hoặc lừa nhau. 

Dã sử Trung Hoa thời Xuân Thu - Chiến Quốc từng kể lại câu chuyện Tôn Tẫn "tạo số liệu" để đưa đại địch thủ Bàng Quyên vào chỗ chết. 

Cụ thể, để dụ Bàng Quyên đuổi theo mình, Tôn Tẫn chủ động lui quân và cùng với nó, chủ động giảm số bếp, từ 10 vạn, xuống 5 vạn. Bàng Quyên thấy số bếp giảm nghĩ là quân Tôn Tẫn vì hoảng sợ mà đào ngũ nên càng lúc càng thúc quân đuổi mạnh. Ai dè đuổi tới Mã Lăng Đạo - nơi có địa hình hiểm trở thì bị phục binh của Tôn Tẫn lao ra đánh. Bàng Quyên bỏ mạng ở chốn này. 

Trong tiểu thuyết Tam quốc diễn nghĩa của La Quán Trung, Gia Cát Lượng cũng dụ Tư Mã Ý chuyển từ thế thủ sang thế công bằng cái mẹo lui quân - giảm số bếp y như vậy. Trong các cuộc chiến tranh ở cả phương Đông lẫn phương Tây, những yếu tố như số liệu - dữ liệu tác động không nhỏ tới kết cục thắng - thua sau cùng.

Tuy nhiên, đấy là kiểu số liệu do con người chủ động tạo ra để phục vụ một mục tiêu rõ ràng. 

Và kiểu số liệu do "con người chủ động tạo ra" cũng không chỉ phát huy giá trị trong những cuộc chiến mà còn trong nhiều lĩnh vực khác nhau của đời sống thời bình. Nó khác hẳn so với thời đại "dữ liệu lớn" - nơi mà con người cung cấp số liệu trong các hoạt động kinh doanh, mua bán, giải trí... đời thường, để rồi tổng hợp những nguồn dữ liệu đó lại tạo nên con người.

Thành thử, trong thời đại dữ liệu lớn, muốn hiểu về một thành phố - một quốc gia, chi phối các hoạt động chủ lưu trong đời sống một thành phố - một quốc gia, thậm chí đánh sập một thành phố - một quốc gia, người ta có xu thế đánh cắp nguồn dữ liệu của một thành phố - một quốc gia.

Thời đại dữ liệu lớn, bảo vệ nguồn dữ liệu là yêu cầu tối mật!

Phan Mỹ Chí

Các tin khác

Trinh thám trên không trong thời đại mới

Trinh thám trên không trong thời đại mới

Trinh thám trên không đã và đang là một trong các nhân tố chủ đạo trong chiến tranh hiện đại. Sự xuất hiện dày đặc của nhiều mẫu máy bay không người lái (UAV) phục vụ công tác tình báo, theo dõi và do thám (ISR) trên chiến trường lại càng khẳng định vai trò của trinh thám trên không.

Mặt Trăng đang trở thành chiến trường quyền lực mới

Mặt Trăng đang trở thành chiến trường quyền lực mới

Sau hơn nửa thế kỷ, con người sắp in dấu chân trở lại Mặt Trăng. Tuy nhiên, “lục địa thứ 8” giờ đây đang chật chội hơn trước rất nhiều. Đấy không chỉ là cuộc đối đầu song phương giữa Mỹ và Liên Xô như thời Chiến tranh lạnh, mà đã trở thành một sân chơi đa cực với sự tham gia quyết liệt của nhiều quốc gia và cả những liên minh.

Khi AI vừa là mũi giáo vừa là tấm khiên?

Khi AI vừa là mũi giáo vừa là tấm khiên?

Trí tuệ nhân tạo (AI) đang dần thoát ly khỏi vai trò công cụ hỗ trợ để trở thành tác nhân cốt lõi làm thay đổi diện mạo an ninh mạng toàn cầu. Từ khả năng tìm kiếm lỗ hổng bảo mật với tốc độ ánh sáng của các mô hình ngôn ngữ lớn đến những "tác nhân AI" tự vận hành cuộc tấn công, trí tuệ nhân tạo đang mang đến những thách thức chưa từng có trong lĩnh vực này.

Kinh tế thế giới trước ngã rẽ khủng hoảng đa chiều?

Kinh tế thế giới trước ngã rẽ khủng hoảng đa chiều?

Diễn ra từ ngày 13 tới ngày 18/4, Hội nghị Mùa xuân do Quỹ Tiền tệ Quốc tế (IMF) và Ngân hàng Thế giới (WB) đồng tổ chức thu hút sự tham gia của hơn 190 bộ trưởng tài chính, thống đốc ngân hàng trung ương, cùng hàng nghìn đại diện các tổ chức quốc tế, học giả và doanh nghiệp. Những cuộc thảo luận của giới tài chính toàn cầu ở Washington lần này đã khép lại với những cảm giác ảm đạm, song hành với sự đồng thuận thay đổi rõ rệt trong nhận thức chung: Cộng đồng tài chính quốc tế đã và đang buộc phải chuyển sang chế độ quản lý khủng hoảng, trong khi guồng máy kinh tế thế giới đối mặt với sự rạn nứt cấu trúc sâu sắc, thay vì chỉ là một đợt suy thoái mang tính chu kỳ.

Quân đội Đức và tham vọng làm chủ “chiến trường thủy tinh”

Quân đội Đức và tham vọng làm chủ “chiến trường thủy tinh”

Quân đội Đức đang đẩy nhanh lộ trình tích hợp trí tuệ nhân tạo (AI) và hạ tầng vệ tinh quy mô lớn nhằm biến chiến trường trở nên "trong suốt như thủy tinh". Với tư duy lấy dữ liệu làm trung tâm, họ kỳ vọng sẽ rút ngắn chu kỳ ra quyết định từ nhiều ngày xuống còn vài phút, tạo ra lợi thế áp đảo trước các đối thủ tiềm tàng thông qua khả năng quan sát vượt trội và phản ứng tốc độ cao.

Chuyện “trong nguy có cơ” tại eo biển Hormuz

Chuyện “trong nguy có cơ” tại eo biển Hormuz

Eo biển Hormuz, "yết hầu năng lượng" của thế giới, là nơi chứng kiến khoảng 20 triệu thùng dầu, tương đương 15 - 20% nguồn cung toàn cầu, được trung chuyển mỗi ngày. Kể từ cuối tháng 2/2026, khi xung đột giữa Mỹ, Israel và Iran bùng phát, trật tự quen thuộc nhanh chóng bị phá vỡ. Số lượng tàu qua lại eo biển giảm mạnh, từ khoảng 135 chuyến/ngày xuống chỉ còn trung bình khoảng 6 chuyến/ngày trong tháng 3/2026, thậm chí có thể còn thấp hơn. Thị trường năng lượng chịu một cú sốc nguồn cung rõ rệt, giá dầu Brent tăng mạnh, có thời điểm vượt mốc 100 USD/thùng và kéo theo áp lực lạm phát lan rộng.

Giải mã những vũ khí lần đầu thực chiến trong xung đột tại Iran

Giải mã những vũ khí lần đầu thực chiến trong xung đột tại Iran

Từ hệ thống đánh chặn bằng tia laser Iron Beam, tên lửa PrSM, phi đội drone tự hành Lucas cho tới tên lửa siêu vượt âm Fattah-2, cuộc xung đột tại Iran đã trở thành nơi trình làng hàng loạt vũ khí thế hệ mới. Các khí tài này tham gia rất hiệu quả vào các kịch bản tác chiến cường độ cao, tạo ra những khác biệt rõ rệt trên chiến trường.

Trái đất “cựa mình”, AI sẽ lên tiếng

Trái đất “cựa mình”, AI sẽ lên tiếng

Những vết nứt nhỏ trên bậc thềm, những thân cây nghiêng bất thường hay lớp tuyết lặng lẽ tích tụ trên sườn núi - tất cả từng là dấu hiệu khó nhận biết của thảm họa. Nhưng giờ đây, khi Trái Đất chuyển động, trí tuệ nhân tạo đang giúp con người nhìn thấy những điều tưởng như vô hình, mở ra cơ hội cứu sống hàng nghìn sinh mạng mỗi năm.

Tiền lệ pháp lý định hình lại kỷ nguyên mạng xã hội

Tiền lệ pháp lý định hình lại kỷ nguyên mạng xã hội

Một phán quyết mang tính bước ngoặt tại Mỹ đã lần đầu tiên buộc hai ông lớn ngành công nghệ là Meta và Google phải chịu trách nhiệm không phải vì những gì người dùng đăng tải, mà vì chính cách các nền tảng này được thiết kế để cuốn người trẻ vào những vòng lặp vô tận của màn hình điện thoại. Được ví như "khoảnh khắc thuốc lá" của thế kỷ 21, phán quyết này mở ra làn sóng kiện tụng và siết chặt pháp lý để kiểm soát cách thức các nền tảng số được thiết kế và vận hành.

Khi cỗ máy tự quyết định, ai sẽ là người chịu trách nhiệm?

Khi cỗ máy tự quyết định, ai sẽ là người chịu trách nhiệm?

Vào năm 1942, khi thế giới còn đang chìm trong khói lửa của Chiến tranh thế giới thứ hai, nhà văn khoa học viễn tưởng Isaac Asimov đã thai nghén một ý tưởng đầy tính nhân văn: "Ba định luật Robot". Đó là bộ quy tắc được "cài đặt" trong bộ não của robot để đảm bảo chúng không làm hại con người. Hơn 80 năm sau, thế giới đã bước vào một kỷ nguyên mà những cỗ máy biết tự "suy nghĩ" và "hành động" không còn là nhân vật trong tiểu thuyết. Câu hỏi được đặt ra lúc này là liệu chúng ta có cần một bộ luật tương tự để bảo vệ chính chúng ta khỏi những cỗ máy?

Chiếc kính thiên lý

Chiếc kính thiên lý

Kính thiên lý (kính viễn vọng) được đưa vào Việt Nam sớm nhất qua các giáo sĩ phương Tây và thương nhân trong thời các chúa Nguyễn (thế kỷ XVII - XVIII). Sử sách cho biết, các chúa Nguyễn đã mua loại kính này để phục vụ quân đội và làm phần thưởng cho các tướng lĩnh.

Cuốn lịch và quyền lực của triều đình

Cuốn lịch và quyền lực của triều đình

Thời phong kiến, phạm vi quyền lực triều đình không chỉ được thể hiện qua việc sử dụng niên hiệu, tước phong, tên và cấp địa phương được ban cho, mà còn thể hiện trong việc áp dụng bộ lịch của triều đại ấy.

Đằng sau nghề thương thuyết ransomware

Đằng sau nghề thương thuyết ransomware

Mối họa từ phần mềm độc hại chuyên dùng để tống tiền (ransomware) ngày càng trở nên cấp bách. Công ty Nghiên cứu an ninh mạng Cybersecurity Ventures (Mỹ) thống kê được giá trị thiệt hại mà các doanh nghiệp, tổ chức trên toàn cầu phải chịu vì ransomware đã lên tới 57 tỷ USD trong năm 2025. Ransomware nở rộ cũng kéo ngành an ninh mạng phát triển theo, trong đó nổi bật là lĩnh vực thương thuyết. "Nghề" thương thuyết với tin tặc đang trở nên phổ biến hơn bao giờ hết, đồng thời đóng vai trò quan trọng trong mạng lưới an ninh mạng toàn cầu.

Làn sóng tội phạm mạng thứ năm: Khi AI trở thành “mạch máu” của thế giới ngầm

Làn sóng tội phạm mạng thứ năm: Khi AI trở thành “mạch máu” của thế giới ngầm

Trong vài năm gần đây, công nghệ trí tuệ nhân tạo (AI) đã thúc đẩy một bước chuyển biến chưa từng có trong lịch sử tội phạm mạng: từ công cụ hỗ trợ đến cơ sở hạ tầng cốt lõi của các chiến dịch tấn công quy mô toàn cầu. Quá trình này không chỉ khiến các hệ thống an ninh đối mặt với mức độ tinh vi mới, mà còn đặt ra những thách thức chính sách, pháp luật và thực thi mà chưa một thời đại số nào từng chứng kiến.

Bùng nổ xung đột Pakistan - Afghanistan: Ngọn lửa mâu thuẫn chưa tắt hai bên đường Durand

Bùng nổ xung đột Pakistan - Afghanistan: Ngọn lửa mâu thuẫn chưa tắt hai bên đường Durand

Những cuộc bắn phá ác liệt dọc biên giới Pakistan - Afghanistan những ngày gần đây không phải là một biến cố bất ngờ, mà là sự bùng phát mới của một mâu thuẫn kéo dài hơn một thế kỷ. Từ đường Durand lịch sử, vấn đề sắc tộc Pashtun bị chia cắt, cho tới sự trỗi dậy của các nhóm vũ trang xuyên biên giới sau khi Taliban trở lại nắm quyền năm 2021, nhiều lớp xung đột chồng chéo lên nhau, biến khu vực thành một trong những điểm nóng nguy hiểm nhất của Nam Á.

Tuyển bổ quan lại thực thi pháp luật thời xưa

Tuyển bổ quan lại thực thi pháp luật thời xưa

Ngay từ đầu triều Hậu Lê, Vua Lê Thái Tông đã nói với quần thần rằng: "Phép trị nước lấy hình pháp gọn nhẹ làm gốc. Các quan xét xử phải giữ phép công bằng, không được nhận đút lót mà làm sai, để có người bị oan uổng. Các vụ kiện lớn thì mới cho tâu thẳng lên".

Cơn sốt AI và cuộc thanh lọc cần thiết

Cơn sốt AI và cuộc thanh lọc cần thiết

Sau hơn 3 năm hưng phấn tột độ kể từ cơn địa chấn ChatGPT thu hút sự chú ý của các nhà đầu tư khắp thế giới, cơn sốt trí tuệ nhân tạo (AI) đã bắt đầu lắng xuống. Với một cái nhìn thực tế hơn, giới chuyên môn đã đặt ra một câu hỏi mới: Liệu cơn sốt AI có phải là một bong bóng sắp nổ, hay đây thực sự là nền tảng cho một kỷ nguyên tăng trưởng mới?

Phục dựng di tích điện Kính Thiên?

Phục dựng di tích điện Kính Thiên?

Cuối tháng 12/2025, Trung tâm Bảo tồn Di sản Thăng Long - Hà Nội phối hợp với Viện Khảo cổ học công bố kết quả sơ bộ khai quật khảo cổ khu vực nền điện Kính Thiên năm 2025. Kết quả này cho thấy nhiều thông tin giá trị, bổ khuyết cho nhiều kiến giải trước đây. Nhưng câu hỏi đặt ra là chúng ta đã thực sự đủ cơ sở tư liệu khoa học để góp phần nghiên cứu phục dựng di tích điện Kính Thiên? Câu chuyện này sẽ cần thời gian dài mới có thể trả lời một cách thỏa đáng.

Ngựa trong pháp luật thời xưa

Ngựa trong pháp luật thời xưa

Ngựa là loài vật gần gũi trong cuộc sống người Việt từ lâu, không chỉ dùng để kéo xe mà còn là phương tiện nghi lễ, giao thông và đánh trận, do đó, nó cũng được xuất hiện khá nhiều trong hình luật thời xưa.

Tản mạn Thần Bạch Mã

Tản mạn Thần Bạch Mã

Thần Bạch Mã là vị thần hiện được thờ cúng tại đền Bạch Mã ở phố Hàng Buồm, Hà Nội. Từ thời Lý, đó là ngôi đền trấn phía Đông, tương ứng với đền Quán Thánh trấn phía Bắc, đền Kim Liên trấn phía Nam và đền Voi Phục trấn phía Tây thành Thăng Long.