Như chúng ta đã biết, hoạt động thống kê là hoạt động xác định nhu cầu thông tin cần thu thập, chuẩn bị thu thập, thu thập, xử lý và tổng hợp, phân tích và dự báo, công bố, phổ biến, lưu trữ thông tin thống kê. Hoạt động thống kê được ra đời và phát triển từ đòi hỏi thực tiễn khách quan, sinh động của xã hội, nhất là quá trình phát triển như vũ bão của hoạt động kinh tế. Theo đó, khoa học thống kê và kỹ năng trong mọi hoạt động thống kê cùng phát triển và hoàn thiện theo vận động của thời gian để thu thập và sử dụng thông tin thống kê (Viết tắt là TTTK) cho nhiều mục đích khác nhau. Đặc biệt nhất là hình thức thu thập thông tin (Viết tắt là HTTTTT) thống kê được biểu hiện rõ nét nhất cho sự cải biến này trong lịch sử phát triển, trong đó có lịch sử Thống kê Việt Nam. Nếu trước những năm trước 1990 gắn liền với nền kinh tế tập trung, kế hoạch hóa thì HTTTTT trong hoạt động thống kê chủ yếu là thực hiện Chế độ Báo cáo thống kê (Viết tắt là BCTK), thì cũng từ đó đến nay HTTTTT trong hoạt động thống kê chủ yếu lại là tổ chức thực hiện các cuộc điều tra thống kê (Viết tắt là ĐTTK) và Tổng điều tra thống kê. Đến thời kỳ này, khi cách mạng Công nghiệp 4.0 phát triển mạnh mẽ ở mọi lúc, mọi nơi dẫn đến nhiều thành tựu khoa học lớn đạt được. Trong đó, có kỹ thuật số, kinh tế số, chính phủ số…ra đời và phát triển nhanh chóng. Nhờ vậy, nhiều nguồn dữ liệu sẵn có (Dữ liệu thứ cấp) hình thành và lưu trữ trong hoạt động kinh tế, hành chính, kỹ thuật, viễn thông…Có một nguồn dữ liệu thứ cấp – Dữ liệu hành chính vô cùng giá trị và khả thi để giúp các cơ quan, đơn vị thống kê triển khai sản xuất các chỉ tiêu thống kê – Thông tin thống kê trong thời gian này. Chính vì thế, Luật Thống kê năm 2015 đã sớm quy định: Sử dụng dữ liệu hành chính tạo nên thông tin thống kê là một hình thức mới trong thu thập thông tin thống kê – Được gọi là “Khai thác hồ sơ hành chính”. Chắc chắn rằng, trong một thời gian không lâu nữa, HTTTTT bằng Khai thác hồ sơ hành chính (Viết tắt là KTHSHC) sẽ thay thế hai HTTTTT kia, rồi để giữ vị trí chủ yếu trong hoạt động thu thập thông tin thống kê. Vậy, Khai thác hồ sơ hành chính là gì? Sản xuất thông tin thống kê từ Khai thác hồ sơ hành chính là như thế nào?
Tổng quan về Khai thác hồ sơ hành chính
Theo Luật Thống kê quy định: KTHSHC (Sử dụng hồ sơ hành chính) cho hoạt động thống kê là một hình thức thu thập thông tin về đối tượng nghiên cứu cụ thể từ dữ liệu hành chính. Dữ liệu hành chính sử dụng cho họat động thống kê là dữ liệu thống kê. Đây chính là cơ sở pháp lý, khoa học thống kê, là “ Chìa khóa” cho phép chúng ta sản xuất thông tin thống kê từ nguồn dữ liệu hành chính. Đặc biệt, nó còn giúp ta đơn giản hơn trong việc triển khai thực hiện HTTTTT mới này. Vậy, quy định này bao gồm những nội dung gì ?
Thứ nhất là, theo khoản 1, điều 3 của Nghị định 63/2010/NĐ-CP về kiểm soát thủ tục hành chính thì hồ sơ hành chính là những loại giấy tờ mà đối tượng thực hiện thủ tục hành chính(Viết tắt là TTHC) cần phải nộp hoặc xuất trình cho cơ quan, tổ chức có thẩm quyền giải quyết TTHC khi cơ quan thực hiện TTHC giải quyết một công việc cụ thể cho cá nhân hoặc tổ chức. Đây là quá trình cách thức giải quyết công việc trong hoạt động hành chính nhà nước. TTHC có ba loại gồm: TTHC trong nội bộ cơ quan hành chính, TTHC giữa các cơ quan hành chinh nhà nước với nhau và TTHC giải quyết cho cá nhân và tổ chức của cơ quan hành chính nhà nước. Hơn thế nữa , Luật Thống kê còn quy định cho phép cơ quan thống kê nhà nước được sử dụng 6 cơ sơ dữ liệu hành chính (Cơ sở dữ liệu về con người, Đất đai, Cơ sở kinh tế, thuế, hải quan, bảo hiểm và hành chính khác) để sản xuất thông tin thống kê (Viết tắt là SXTTTK), tức là hoạt động thống kê nhà nước chỉ được dùng dữ liệu hình thành nên trong quá trình thực hiện TTHC giữa cơ quan hành chính với tổ chức và công dân thông qua một công cụ-Hồ sơ hành chính(HSHC).
HSHC thể hiện trên giấy (Dạng giấy) gọi là HSHC dạng giấy. Khi khoa học máy tính phát triển, mọi thông tin trong HSHC giấy được “Số hóa”, lưu trữ, xử lý tổng hợp thông qua máy vi tính thì cho ta một HSHC điện tử – HSHC dạng điện tử. Theo Nghị định 45/2020/N Đ-CP của Chính phủ về ”Thực hiện TTHC trên môi trường điện tử” quy định HSHC điện tử là: Những loại giấy tờ, tài liệu ở dạng điện tử được tổ chức và cá nhân THTTHC nộp, bổ sung cho cơ quan, tổ chức có thẩm quyền trong quá trình tiếp nhận và giải quyết TTHC. Tập hợp các HSHC điện tử tạo thành một kho dữ liệu điện tử (Hay còn gọi là Không gian điện tử) của các tổ chức và cá nhân. Dữ liệu hành chính trong kho này được lọc hay khai thác ra thành dữ liệu thống kê thông qua các phần mềm tin học chuyên dùng.
Thứ hai là, trong hồ sơ hành chính có: Đơn và tờ khai theo mẫu và một số giấy tờ theo quy định. Tờ khai có tên như tên của TTHC về việc giữa cơ quan hành chính với tổ chức và cá nhân. Trong tờ khai có các mục ở dạng câu khẳng định và phần trống để tổ chức và cá nhân tự điền thông tin. Khi được “Số hóa” nó thành dữ liệu máy tính và được gọi trường và giá trị của trường. Nó tương tự như Phiếu điều tra thống kê (Câu hỏi và trả lời câu hỏi). Thông tin, dữ liệu hành chính mà cơ quan thống kê cần để SXTTTK là dữ liệu có cấu trúc (Bản ghi), trong đó có giá trị của các trường tương ứng với mục trong tờ khai.
Thứ ba là, Theo Luật Thống kê quy định: Dữ liệu thống kê gồm dữ liệu định lượng và dữ liệu định tính để hình thành thông tin thống kê về hiện tượng nghiên cứu. Nguyên lý thống kê đã chỉ ra, dữ liệu thống kê còn là các sự kiện, số liệu được thu thập, tổng hợp và phân tích để trình bày và giải thích ý nghĩa của chúng. Tất các dữ liệu được thu thập trong một nghiên cứu được gọi là bộ dữ liệu. Nó được trình bày thành bảng, biểu (gồm hàng và cột). Bộ dữ liệu có cấu tạo gồm: Tổng thể thống kê, các đơn vị tổng thể thống kê, Biến(là đặc điểm của đối tượng thống kê-còn gọi là tiêu thức thống kê, tiêu chí…). Như vậy, thông tin thu thập được trên mỗi biến của một đơn vị tổng thể là dữ liệu (các đặc điểm của 1 đơn vị tổng thể). Một Bộ dữ liệu gồm dữ liệu (Số lượng quan sát) của tất cả các đơn vị của tổng thể thống kê. Mặt khác, dữ liệu và thông tin thống kê được thu thập từ hình thức ĐTTK và BCTK cho ta dữ liệu sơ cấp (Đủ điều kiện là dữ liệu thống kê). Dữ liệu thống kê được sắp xếp, tổ chức theo một cấu trúc hàng, cột thì theo quy định của Luật Thống kê nó còn được gọi là cơ sở dữ liệu thống kê nữa. Khi cơ sở dữ liệu thống kê (Viết tắt là CSDLTK) được “Số hóa” và lưu trữ , xử lý …trong máy tính, thì khoa học dữ liệu gọi nó là cơ sở dữ liệu có cấu trúc, bao gồm: file, các bản ghi và trường dữ liệu.
Còn dữ liệu hành chính là nguồn dữ liệu sẵn có (Là dữ liệu thứ cấp). CSDL hành chính có 2 loại là CSDL có cấu trúc và CSDL phi cấu trúc. Để sử dụng dữ liệu hành chính SXTTTK ta phải “Khai thác” hay “Lọc” tìm được CSDL hành chính có cấu trúc như CSDL thống kê. Nghĩa là dữ liệu được sắp xếp dạng bảng, biểu hay Hàng, cột tương ứng bản ghi và trường. CSDL hành chính dạng này chỉ có được khi ta lấy dữ liệu và thông tin nhập vào từ tờ khai trong hồ sơ hành chính. Mỗi một bản khai là một bản ghi, còn thông tin của từng mục khai là giá trị của một trường. Nó tương đương như phiếu điều tra (Bảng hỏi) và thông tin trả lời của từng câu hỏi. Vì thế, muốn sử dụng dữ liệu hành chính thay thế hoàn toàn dữ liệu thống kê có được từ cuộc điều tra thống kê thì các mục trong tờ khai khi thực hiện các TTHC phải “trùng khít” với các câu hỏi (Đặc điểm-Biến-Trường) trong phiếu điều tra và phỏng vấn. Hơn thế nữa, về nghiệp vụ thống kê còn đòi hỏi thêm các khái niệm, định nghĩa, quy định về tiêu chuẩn của đối tượng thống kê phải thống nhất giữa cơ quan thống kê và cơ quan hành chính với nhau. Tránh mâu thuẫn về khái niệm doanh nghiệp giữa các cơ quan hành chính như hiện nay (doanh nghiệp được ngành thuế quy định là doanh nghiệp nộp thuế, doanh nghiệp được ngành kế hoạch-đầu tư quy định là doanh nghiệp được đăng ký kinh doanh, còn doanh nghiệp được ngành thống kê thống kê là doanh nghiệp đang hoạt động sản xuất kinh doanh). Còn các đặc điểm(Biến, tiêu thức thống kê-trường) cũng phải đồng bộ và thống nhất cùng một qui định (Khắc phục quy định về “Thường trú của công dân” khác nhau giữa ngành công an và thống kê). Thậm chí, nhiều đặc điểm mà ngành thống kê cần thì chưa có, do các ngành quản lý CSDLHC không cần thông tin này trong quản lý nhà nước thuộc ngành mình phụ trách …Chẳng hạn trong Phiếu thu thập (Khai) thông tin dân cư để xây dựng CSDL dân cư để làm căn cước công dân chỉ có 17 mục công dân phải khai; Tờ khai làm căn cước công dân chỉ có 21 mục khai. Trong khi đó, phiếu điều tra và phỏng vấn trong cuộc Tổng điều tra Dân số và nhà ở nhiều hơn hẳn, Phiếu toàn bộ có đến 30 câu hỏi và Phiếu mẫu có đến tận 73 câu hỏi.
Thứ tư là, môi trường và điều kiện đảm bảo cho việc sử dụng dữ liệu hành chính cho hoạt động thống kê là đã “chín muồi” và thuận lợi, khả thi ở nước ta. Trước hết là được Luật Thống kê cho phép, coi khai thác hồ sơ hành chính là một hình thức thu thập thông tin thống kê. Nhà nước ưu tiên đầu tư xây dựng CSDLHC phục vụ yêu cầu quản lý và hoạt động thống kê nhà nước. Nhà nước còn đảm bảo, tạo điều kiện cả về hạ tầng thông tin, nguồn nhân lực và tài chính đã được đưa vào trong Luật Thống kê. Đồng thời chỉ ra trách nhiệm của cơ quan thống kê và các cơ quan hành chính có CSDLHC phối hợp để làm tốt nhất công việc mới mà hiệu quả này. Việc phối hợp có thể từ ngay khi bắt đầu xây dựng CSDLHC về những khái niệm, các trường dữ liệu , sau đó là cách thức tổ chức thực hiện. Đặc biệt là Tổng cục Thống kê đã thành lập mới một đơn vị chuyên nghiệp với nhân lực thành thạo kỹ năng thu thập thông tin thống kê là Cục Thu thập và Công nghệ thông tin thống kê.
Như vậy, mọi điều kiện cần và đủ đã sẵn sàng mở lối cho người làm và cơ quan thống kê đơn giản hơn nhiều trong việc sử dụng dữ liệu hành chính cho hoạt động thống kê.
Quy trình sản xuất thông tin thống kê từ khai thác hồ sơ hành chính
Thứ nhất là, Ngày 24/9/2013, Tổng cục trưởng Tổng cục Thống kê đã ký Quyết định số 945/QĐ-TCTK ban hành “Quy trình sản xuất thông tin thống kê cấp cao” bao gồm 7 bước: (1) Xác định nhu cầu thông tin (TT), (2) Chuẩn bị thu thập TT, (3) Thu thập TT, (4) Xử lý TT, (5) Phân tích TT, (6) Phổ biến TT và (7) Lưu trữ TT. Quyết định còn quy định: Trên cơ sở quy trình cấp cao này phải được chi tiết và gắn liền với công nghệ thông tin cho những trường hợp cụ thể của hoạt động thống kê.
Quy trình này quy định chung cho mọi hình thức thu thập thông tin thống kê được Luật Thống kê cho phép. Khi triển khai SXTTTK sử dụng hình thức TTTT từ HSHC thì chủ yếu phải xây dựng chi tiết thêm hai bước: Chuẩn bị và Thu thập TTTK. Còn 5 bước còn lại được chi tiết như nhau cho cả 3 hình thức thu thập thông tin. Bởi lẽ, sau bước 3 (Thu thập TT) cho ta cùng “ Sản phẩm” là dữ liệu thống kê. Sau đây là quy trình của bước Chuẩn bị và Thu thập TT cho hình thức KTHSHC:
(1) Bước 2: Chuẩn bị Khai thác dữ liệu hành chính
– Nội dung chủ yếu:
+ Lập kế hoạch tổng thể về SXTTTK bằng KTHSHC;
+ Tổ chức biên tập dự thảo xây dựng Phương án KTHSHC;
+ Xác định đối tượng, nội dung và chọn mẫu KTHSHC;
+ Trên cơ sở Quy chế phối hợp đã ký giữa TCTK với Cơ quan hành chính có CSDLHC ký kế hoạch cụ thể chia sẻ CSDLHC;
+ Chuẩn bị các điều kiện như nguồn lực, phương tiện, điều kiện khác đảm bảo phục vụ KTHSHC; Xây dựng Dự toán kinh phí KTHSHC;
+ Xây dựng thuật toán, sơ đồ khối và viết phần mềm khai thác- lọc dữ liệu hành chính thành cơ sở dữ liệu thống kê;
+ TTTTHC trong phạm vi hẹp (Thử nghiệm);
+ Hoàn thiện Phương án, tài liệu, phần mềm, Quyết định ban hành về Phương án KTHSHC;
+ Tuyên truyền, xây dựng cơ sở dữ liệu Tư liệu hóa, đặc tả, chọn tiêu chí đánh giá chất lượng thống kê phù hợp và các phần mềm khác hỗ trợ KTHSHC…..
– Cách thức tiến hành:
+ Xây dựng và phát hành Kế hoạch tổng thể về SXTTTK bằng KTHSHC;
+ Xây dựng biểu đầu ra và dự thảo xây dựng Phương án KTHSHC;
+ Xác định và cập nhật đối tượng, nội dung và phương pháp chọn mẫu vào Phương án KTHSHC;
+ Chọn mẫu KTHSHC;
+ Ký kế hoạch cụ thể với cơ quan chia sẻ CSDLHC;
+ Xây dựng Dự toán kinh phí KTHSHC; Chọn và phân công nhân lực; Xây dựng cơ sở vật chất, phương tiện… đảm bảo cho việc KTHSHC;
+ Viết các phần mềm trong cuộc KTHSHC;
+ Triển khai thu thập CSDLTK từ CSDLHC thử nghiệm;
+ Hoàn thiện Phương án, tài liệu, phần mềm, Quyết định ban hành Phương án KTHSHC;
+ Triển khai tuyên truyền, xây dựng cơ sở dữ liệu Tư liệu hóa, đặc tả, chọn tiêu chí đánh giá chất lượng thống kê phù hợp hình thức KTHSHC…..
(2) Bước 3: Khai thác dữ liệu hành chính
– Nội dung chủ yếu:
+ Lọc hoặc khai thác dữ liệu hành chính có sẵn bằng phần mềm để có cơ sở dữ liệu thống kê và lưu trữ;
+ Kiểm tra và giám sát quá trình lọc hoặc khai thác; làm sạch dữ liệu;
+ Điều tra thống kê mẫu nhỏ(Nếu cần) để tính sai số cho hình thức KTHSHC.
– Cách thức tiến hành:
+ Sử dụng máy vi tính chạy phần mềm khai thác dữ liệu hành chính để có CSDLTK;
+ Kiểm tra và làm sạch dữ liệu;
+ Tiến hành điều tra thống kê mẫu nhỏ(Nếu cần) để có bộ dữ liệu thống kê, so sánh với dữ liệu thống kê từ KTHSHC tính sai số.
(Muốn xem đầy đủ cần tìm trong bài báo “Quy trình SXTTTK chi tiết từ cơ sỏ dữ liệu hành chính” của cùng tác giả).
Kết thúc bước này của cả 3 hình thức TTTTTK đều cho ta một dữ liệu thống kê. Chuyển sang Bước (4) Xử lý và tổng hợp, sử dụng phương pháp thống kê tính toán biên tập các chỉ tiêu thống kê – Thông tin thống kê thông qua các phần mềm từ dữ liệu thống kê cho cả 3 hình thức TTTTTK đều như nhau. Hơn thế nữa Bước 1,5,6 và 7 cũng như nhau.
Thứ hai là, Nguyên lý thống kê đã chỉ ra thu thập thông tin của mỗi cuộc ĐTTK cho ta một bộ dữ liệu thống kê. Nghĩa là cuộc ĐTTK chọn mẫu cho ta bộ dữ liệu thống kê chọn mẫu, cuộc Tổng điều tra thống kê cho bộ dữ liệu thống kê toàn bộ. Đối với KTHSHC từ dữ liệu hành chính tạo nên dữ liệu thống kê cũng vậy, ta cũng có KTHSHC chọn mẫu và KTHSHC toàn bộ. Cách chọn mẫu cũng làm tương tự như đối với cuộc ĐTTK.
Hàm ý cho người làm và cơ quan thống kê
Từ phân tích trên, xin gợi mở một vài nội dung về KTHSHC để SXTTTK như sau:
– Hiện nay, trên thế giới cũng như ở nước ta đang có nguồn dữ liệu khổng lồ ở nhiều lĩnh vực. Nhiều nguồn dữ liệu này có cấu trúc tương tự dữ liệu thống kê và là nguồn dữ liệu thay thế được dữ liệu thống kê từ thực hiện cuộc ĐTTK hoặc BCTK. Đó là nguồn dữ liệu lớn (Bigdata). Nguồn dữ liệu này được hình thành trong quá trình kinh tế, hoạt động xã hội, quản lý hành chính, viễn thông và kỹ thuật…Hiện nay, dữ liệu thống kê có được ở nước ta từ KTHSHC đã được cho phép, còn nguồn dữ liệu ở lĩnh vực khác chưa được cho phép dùng vào hoạt động thống kê. Vì thế, Tổng cục Thống kê(TCTK) cần chủ động, gấp rút kiến nghị cho phép khai thác nguồn dữ liệu thuộc lĩnh vực khác trong Bigdata để SXTTTK. Đây là xu hướng phát triển thống kê và nội dung của Cách mạng 4.0 cả trên thế giới và nước ta đã, đang và sẽ phải triển khai.
– Ban hành Quy trình SXTTTK mới trên Quy trình SXTTTK cấp cao cũ của TCTK có cải tiến, bổ sung và hoàn thiện theo hướng sau đây:
+ Xác định đây là Quy trình cấp cao chung cho quá trình SXTTTK (Chung cho cả 3 hình thức TTTTTK);
+ Thêm một bước nữa (Thành 8 bước), trong đó có nội dung “Đánh giá chất lượng thống kê”, vì đây là một giải pháp tối ưu thực hiện Quyết định về “Bộ Tiêu chí đánh giá Chất lượng thống kê” của Thủ tướng; Sửa tên gọi của 1 số bước cho phù hợp với khoa học thống kê(Tên bước 4 “Xử lý thông tin” thành “Xử lý và tổng hợp thông tin”);
+ Trong Quyết định này cần quy định và đưa ra nội dung công việc và quy trình thực hiện của mỗi bước (Giống như phần trên đã dẫn cho Bước (2)); Cho phép trong trường hợp cụ thể nào phải xây dựng (Chi tiết) quy trình SXTTTK cấp thấp.
+ Tên gọi quy trình đổi là “ Các quy trình trong quá trình SXTTTK”. Như thế nó mới phù hợp với tiêu chuẩn quản lý chất lượng ISO; phù hợp và thống nhất với những nội hàm của các khái niệm như: Hoạt động thống kê, SXTTTK và Nghiên cứu thống kê dùng trong sách thống kê và các văn bản thống kê hiện hành.
– TCTK cần chủ động triển khai tìm hiểu các cơ sở dữ liệu hành chính hiện có, trước tiên là CSDLHC được cho phép sử dụng, để:
+ Xác định dữ liệu hành chính có cấu trúc dữ liệu thống kê, bằng cách so sánh cấu trúc của Mẫu đơn, Tờ khai hoặc Phiếu thu thập thông tin …được quy định trong thủ tục hành chính với Phiếu điều tra và phỏng vấn trong cuộc ĐTTK. So sánh khái niệm, định nghĩa, quy định,… của cùng đối tượng thống kê-đối tượng quản lý hành chính; Đặc điểm(Biến, trường, mục, câu hỏi…) cả về số lượng và tên gọi của đối tượng.
+ Bàn với cơ quan có CSDLHC thống nhất đồng bộ về dữ liệu, hiệu quả nhất là lúc chuẩn bị xây dựng CSDLHC.
+ Đào tạo có được chuyên gia phần mềm giỏi đáp ứng được yêu cầu KTHSHC. Làm được như vậy TCTK sẽ có dữ liệu thống kê tốt để SXTTTK.
– Xây dựng kế hoạch về hệ thống thông tin, nhân lực, tài chính; Kế hoạch tuyên truyền để tiến hành thực hiện hình thức thu thập thông tin mới-KTHSHC.
Dữ liệu thống kê mới có được từ Big data, trong đó có khai thác hồ sơ hành chính chắc chắn sẽ thỏa mãn 10 chữ vàng (Đầy đủ, kịp thời, chính xác, trung thực, khách quan) và chi phí thấp đảm bảo phục vụ tốt hơn các cơ quan trong Hệ thống chính trị và người dùng thông tin thống kê; Mục tiêu của Chiến lược phát triển thống kê giai đoạn 2021 – 2030, tầm nhìn 2045 sẽ thành hiện thực./.
Tiến sĩ – Vũ Thanh Liêm
Nguyên Phó tổng cục trưởng TCTK