Trong bài viết “Chuyển đổi số – động lực quan trọng phát triển lực lượng sản xuất, hoàn thiện quan hệ sản xuất đưa đất nước bước vào kỷ nguyên mới” nhân kỷ niệm 79 năm Quốc khánh nước Cộng hòa xã hội chủ nghĩa Việt Nam, ngày 02/9/2024, GS.TS. Tô Lâm, Tổng Bí thư Ban Chấp hành Trung ương Đảng Cộng sản Việt Nam, đã nhấn mạnh “… Chuyển đổi số không đơn thuần là việc ứng dụng công nghệ số vào các hoạt động kinh tế – xã hội, mà còn là quá trình xác lập một phương thức sản xuất mới tiên tiến, hiện đại – “phương thức sản xuất số”, trong đó đặc trưng của lực lượng sản xuất là sự kết hợp hài hòa giữa con người và trí tuệ nhân tạo (AI); dữ liệu trở thành một tài nguyên, trở thành tư liệu sản xuất quan trọng…” Như vậy, chuyển đổi số không chỉ là một công cụ kỹ thuật mà còn là một cuộc cách mạng toàn diện giúp tái cấu trúc nền kinh tế, hoàn thiện các mối quan hệ sản xuất. Việc khai thác, phân tích tài nguyên dữ liệu tạo nên một cuộc cách mạng trong cách thức tổ chức vận hành và tạo ra giá trị mới. Sự kết hợp giữa khoa học dữ liệu và thống kê đóng vai trò trung tâm trong việc chuyển đổi dữ liệu thành lực lượng sản xuất mới, thúc đẩy đổi mới và phát triển kinh tế mạnh mẽ trong kỷ nguyên số.
Dữ liệu là tài nguyên trong kỷ nguyên mới
Hiện trong thực tế có hai nguồn dữ liệu, một là dữ liệu do Hệ thống thống kê nhà nước sản xuất và hai là, dữ liệu từ internet. Mỗi nguồn dữ liệu đều có những đặc trưng riêng biệt và nếu kết hợp tốt hai loại dữ liệu này sẽ mang lại lợi ích cực kỳ to lớn cho xã hội.
Dữ liệu khổng lồ từ nguồn internet và các nền tảng công nghệ, như mạng xã hội, thương mại điện tử, và Internet vạn vật (IoT), khi kết hợp với trí tuệ nhân tạo, khoa học dữ liệu và thống kê sẽ mở ra cơ hội to lớn. Nguồn dữ liệu này giúp các doanh nghiệp hiểu rõ hơn về thị trường, tối ưu hóa chiến lược tiếp thị và cá nhân hóa dịch vụ để nâng cao năng lực cạnh tranh quốc tế. Đồng thời, việc áp dụng các công cụ phân tích dữ liệu trong quản lý chuỗi cung ứng giúp dự đoán chính xác nhu cầu thị trường, tối ưu hóa vận chuyển và kho bãi, qua đó giảm chi phí và gia tăng hiệu quả trong các ngành xuất khẩu quan trọng như nông sản, dệt may và công nghiệp chế biến. Bên cạnh đó, còn thúc đẩy sản xuất thông minh thông qua công nghệ tự động hóa và trí tuệ nhân tạo, tăng năng suất lao động, giảm lãng phí tài nguyên.
Dữ liệu thống kê do Hệ thống thống kê nhà nước sản xuất, được tổ chức thu thập từ người dân, doanh nghiệp, các cơ sở kinh tế và cơ quan nhà nước thông qua điều tra thống kê, chế độ báo cáo thống kê và khai thác từ dữ liệu hành chính là nền tảng không thể thay thế. Khác với dữ liệu lớn thu thập từ các hoạt động trên internet vốn phân tán và khó kiểm chứng, cơ sở dữ liệu thống kê quốc gia bao quát toàn diện các lĩnh vực quan trọng như: Dân số, lao động, nông nghiệp, công nghiệp, thương mại, dịch vụ, du lịch, xã hội và môi trường. Đây không chỉ là công cụ hỗ trợ đắc lực trong việc hoạch định chính sách của Đảng và Nhà nước mà còn là nguồn thông tin chiến lược để doanh nghiệp dự báo xu hướng, phân tích thị trường và tối ưu hóa hoạt động, đặc biệt ở những lĩnh vực mà dữ liệu trực tuyến khó tiếp cận hoặc thiếu độ tin cậy.
Sự kết hợp giữa hai nguồn dữ liệu này bổ sung và hỗ trợ nhau tạo nên động lực mạnh mẽ cho phát triển kinh tế – xã hội. Nếu như dữ liệu từ internet thúc đẩy đổi mới sáng tạo và hiện đại hóa sản xuất, thì dữ liệu thống kê quốc gia đảm bảo tính toàn diện, tính chính xác trở thành nền tảng vững chắc để quản lý và hoạch định chiến lược phát triển bền vững trong kỷ nguyên mới.
Sự kết hợp này được nhiều nhà khoa học trên thế giới khẳng định như: David J. Hand[1] đã chỉ ra, thống kê là một phần không thể thiếu, giúp xử lý và hiểu sâu hơn các dữ liệu phức tạp mà khoa học dữ liệu thu thập. Trevor Hastie, Robert Tibshirani và Jerome Friedman[2] cho rằng các phương pháp thống kê đóng vai trò quan trọng trong việc phát triển các mô hình học máy, giúp chúng không chỉ chính xác hơn mà còn dễ hiểu và minh bạch. Trong khi đó, Hadley Wickham và Garrett Grolemund[3] khẳng định sự cần thiết của các công cụ trực quan và quy trình khoa học dữ liệu để chuyển đổi số liệu thành thông tin có giá trị, từ đó giúp các nhà quản lý và doanh nghiệp đưa ra quyết định hiệu quả. Cathy O’Neil, Rachel Schutt[4] đã phân tích sự kết hợp giữa thống kê và khoa học dữ liệu thúc đẩy các ứng dụng thực tế, từ tối ưu hóa kinh doanh đến giải quyết các vấn đề xã hội. Peter Norvig[5] nhấn mạnh tầm quan trọng của việc sử dụng các phương pháp thống kê để cải thiện độ chính xác và khả năng học tập của các hệ thống dữ liệu, giúp xây dựng các công cụ đổi mới sáng tạo.
Vai trò của khoa học dữ liệu trong thời đại số
Khoa học dữ liệu là sự kết hợp giữa thống kê, toán học, công nghệ thông tin và chuyên môn lĩnh vực để xử lý dữ liệu nhằm tạo ra giá trị thực tiễn. Khoa học dữ liệu tập trung vào việc thu thập, xử lý, phân tích, trực quan hóa và dự đoán thông tin dựa trên khối lượng dữ liệu khổng lồ, thường đến từ nhiều nguồn khác nhau như hệ thống cảm biến, các giao dịch kinh doanh, hoạt động trên mạng xã hội và internet vạn vật (IoT)… Đặc biệt trong thời đại số, khoa học dữ liệu trở thành yếu tố cốt lõi giúp doanh nghiệp phát triển chiến lược dài hạn, dự đoán xu hướng thị trường, tối ưu hóa quy trình và đưa ra các quyết định dựa trên dữ liệu thay vì cảm tính.
Quy trình khoa học dữ liệu thường bắt đầu từ việc thu thập dữ liệu từ nhiều nguồn khác nhau, bao gồm dữ liệu có cấu trúc (như cơ sở dữ liệu truyền thống) và dữ liệu phi cấu trúc (như văn bản, hình ảnh, hoặc âm thanh, hoặc các ý kiến bình luận, các giao dịch trên mạng xã hội…). Sau đó, dữ liệu sẽ được làm sạch và chuẩn hóa để đảm bảo tính chính xác và đồng nhất. Giai đoạn tiếp theo là phân tích dữ liệu, trong đó các phương pháp thống kê và thuật toán học máy (Machine Learning) được sử dụng để tìm kiếm các mẫu, mối quan hệ và dự đoán trong dữ liệu. Cuối cùng, kết quả phân tích được trình bày thông qua các công cụ trực quan hóa (Data Visualization), giúp các bên liên quan dễ dàng hiểu và ứng dụng.
Với sự hỗ trợ của trí tuệ nhân tạo (AI) và học máy, việc xử lý dữ liệu phức tạp trở nên hiệu quả hơn bao giờ hết. AI và học máy không chỉ giúp tăng tốc độ xử lý mà còn tự động hóa việc phát hiện các mẫu dữ liệu tiềm ẩn mà con người khó có thể nhận ra. Ví dụ, trong thương mại điện tử, AI có thể phân tích hàng triệu giao dịch để cá nhân hóa trải nghiệm khách hàng, hoặc trong lĩnh vực tài chính, nó có thể dự đoán rủi ro và phát hiện gian lận một cách chính xác.
Một trong những điểm đáng chú ý là khả năng chuyển đổi dữ liệu tưởng như phân tán và không có giá trị thành một nguồn tài nguyên, tư liệu sản xuất đầy tiềm năng. Nhờ các phương pháp khai phá dữ liệu (Data Mining) và kỹ thuật phân tích nâng cao, doanh nghiệp có thể tìm thấy các cơ hội tiềm ẩn, cải thiện hiệu suất hoạt động và xây dựng lợi thế cạnh tranh trong thị trường ngày càng biến động.
Nhìn chung, khoa học dữ liệu không chỉ là một công cụ mà còn là một cách tiếp cận mang tính chiến lược, giúp doanh nghiệp khai thác tối đa giá trị từ dữ liệu và trở thành lực lượng sản xuất mới trong thời đại số.
Thống kê đóng vai trò cốt lõi trong khoa học dữ liệu
Thống kê đóng vai trò cốt lõi trong khoa học dữ liệu, cung cấp lý thuyết và công cụ phân tích để hiểu và khai thác dữ liệu. Trong khi khoa học dữ liệu tập trung vào xử lý dữ liệu lớn với công nghệ như trí tuệ nhân tạo và học máy, thì thống kê giúp làm rõ tính ngẫu nhiên, mối quan hệ nhân quả, và xu hướng tiềm ẩn trong dữ liệu thông qua các phương pháp thống kê.
Các mô hình thống kê như hồi quy tuyến tính, phân tích phương sai, hay kiểm định giả thuyết không chỉ hỗ trợ diễn giải ý nghĩa dữ liệu mà còn đảm bảo độ tin cậy, đánh giá rủi ro, dự báo và tối ưu hóa quy trình phân tích. Thống kê còn định lượng sai số, kiểm định mô hình và ngăn ngừa kết luận sai lệch, giữ vai trò quan trọng trong việc đảm bảo tính chính xác của các kết quả.
Sự phối hợp giữa thống kê và khoa học dữ liệu không chỉ cung cấp các phân tích mạnh mẽ hơn mà còn tạo ra cơ sở vững chắc để đưa ra quyết định dựa trên dữ liệu một cách chính xác và tin cậy. Điều này phản ánh vai trò không thể tách rời của thống kê trong việc khai thác và diễn giải dữ liệu phức tạp, đồng thời là nền móng để khoa học dữ liệu phát triển các công cụ và ứng dụng thực tế, đặc biệt trong trí tuệ nhân tạo. Sự giao thoa này không chỉ dừng lại ở việc tích hợp các kỹ thuật, mà còn kết hợp các nguyên tắc khoa học chặt chẽ với khả năng đổi mới sáng tạo, mang lại giá trị thực tiễn ở cả cấp độ vĩ mô và vi mô.
Bên cạnh những giá trị to lớn mà khoa học dữ liệu và thống kê mang lại trong việc thúc đẩy phát triển kinh tế và đóng góp cho xã hội, vẫn tồn tại không ít thách thức liên quan đến đạo đức, bảo mật và khung chính sách. Để khai thác tối đa lực lượng sản xuất mới này, Nhà nước và doanh nghiệp cần chú trọng đầu tư hạ tầng công nghệ hiện đại, đặc biệt xây dựng các trung tâm dữ liệu lớn mang tầm quốc tế; xây dựng trung tâm dữ liệu thống kê quốc gia kết nối, tích hợp, thống nhất và chia sẻ với các bộ, ngành và UBND các tỉnh, thành phố; đảm bảo nguồn điện cho chuyển đổi số; tăng cường nguồn nhân lực cho chuyển đổi số, đặc biệt tập trung đào tạo nhân lực chất lượng cao về thống kê, khoa học dữ liệu, công nghệ thông tin và chip bán dẫn; đồng thời đảm bảo tính minh bạch và trách nhiệm trong việc sử dụng dữ liệu.
Tóm lại, sự kết hợp giữa khoa học dữ liệu và thống kê tạo nên lực lượng sản xuất mới trong thời đại số, góp phần thay đổi cách thế giới vận hành và phát triển. Như GS. TS. Tô Lâm, Tổng bí thư Ban Chấp hành Trung ương Đảng Cộng sản Việt Nam đã khẳng định, chuyển đổi số chính là động lực quan trọng để phát triển lực lượng sản xuất, hoàn thiện quan hệ sản xuất và đưa đất nước bước vào kỷ nguyên mới. Trong tương lai, sự kết hợp này sẽ còn mở ra nhiều đường hướng mới cho các ngành nghề khác nhau, mang lại giá trị kinh tế và xã hội bền vững.
TS. Nguyễn Trí Duy
Phó Viện trưởng Phụ trách Viện Khoa học Thống kê
[1] Giáo sư thống kê tại Imperial College London, trong bài viết “Statistics and Data Science: A Fundamental Relationship, 2018”
[2] Giáo sư tại Đại học Stanford, trong cuốn sách “The Elements of Statistical Learning, 2009”
[3] Hadley Wickham, nhà khoa học dữ liệu hàng đầu tại Công ty Posit, và Garrett Grolemund, nhà phát triển phần mềm và chuyên gia về dữ liệu, trong cuốn “R for Data Science” (2017)
[4] Cathy O’Neil, nhà khoa học dữ liệu và CEO của ORCAA, cùng với Rachel Schutt, giám đốc khoa học dữ liệu tại News Corp, trong cuốn “Doing Data Science: Straight Talk from the Frontline” (2014)
[5] Nhà nghiên cứu hàng đầu và giám đốc nghiên cứu tại Google