Năm 2010, Drew Conway vẽ giản đồ sau đây để mô tả ý tưởng liên hệ giữa 3 lĩnh vực: (1) Chuyên môn, (2) Lập trình – dữ liệu và (3) Toán – Thống kê. Biểu đồ này còn cho phép chúng ta phân ra 7 vùng và xác định 7 loại “khoa học gia” tương ứng với mỗi vùng:
Vùng 1: Những người chỉ có duy nhất kiến thức và kĩ năng trong chuyên ngành của mình. Ví dụ 1 bác sĩ lâm sàng có kiến thức sinh lý bệnh học uyên thâm, kỹ năng khám, phẫu thuật xuất sắc. Tuy nhiên ông ta không biết gì về thống kê học, và không có khả năng sử dụng bất cứ phần mềm, công cụ phân tích dữ liệu nào. Vùng này đông hơn các bạn tưởng, bên trong nó chứa rất nhiều chuyên gia, giáo sư, trưởng khoa, kỹ sư… thậm chí những người có quyền lực rất cao về học thuật.
Vùng 2: Những kẻ mệnh danh là Hacker máy tính, họ nói chuyện với máy tính bằng các dòng lệnh, thông thạo ít nhất một ngôn ngữ lập trình, có tư duy giải quyết vấn đề theo thuật toán, sơ đồ, giỏi khai thác dữ liệu nhưng KHÔNG có bất cứ kiến thức nào về Thống kê học lẫn chuyên môn.
Sự giao thoa giữa vùng 1 và 2 tạo ra 1 vùng rất nguy hiểm số 4: Những kẻ trong vùng này ngộ nhận là mình đã có khả năng phân tích dữ liệu và vì có kiến thức chuyên ngành, họ sẽ dễ dàng thiết kế nghiên cứu, thu thập số liệu, bật máy tính lên và chạy 1 phần mềm thống kê và cho ra kết quả ngon lành, nhưng vì không có kiến thức thống kê, họ sẽ chọn sai phương pháp và diễn đạt bậy bạ kết quả. Nguy hiểm hơn khi họ dùng quyền lực và uy tín học thuật của mình để công bố kết quả nghiên cứu và đánh lừa thiên hạ… Nếu bạn cảm nhận mình đang nằm trong vùng này, hãy cẩn trọng và nên học thêm về thống kê hoặc xin thêm tư vấn của các nhà thống kê khi làm các nghiên cứu.
Vùng 3: những người học thống kê một cách bài bản như một nhánh của Toán ứng dụng, họ hiểu các khái niệm về xác suất, mô hình, thuật toán thống kê và biết cách thực hiện cũng như diễn giải chúng… Tuy nhiên dù giỏi đến đâu thì sức người vẫn có hạn… một ngày nào đó những nhà thống kê học sẽ đối diện vấn đề phức tạp đến mức họ không thể hình dung ra phương pháp giải quyết. Lúc này thế mạnh của vùng số 6 mới được chú ý.
Vùng 6: biểu thị cho sự giao thoa giữa Toán, thống kê, khoa học máy tính, lập trình và dữ liệu, một cách tổng quát, độc lập với chuyên ngành khác. Vùng này chính là thứ được gọi là Machine Learning.
Giao thoa giữa vùng số 1 và số 3 là vùng 5 chính là phần lớn thế giới học thuật truyền thống mà ta từng biết từ hàng trăm năm nay, nơi tập trung hầu hết các nghiên cứu sinh, thạc sĩ, tiến sĩ, giáo sư,… các nhà khoa học chân chính vừa giỏi chuyên môn vừa có tư duy kiến thức về thống kê. Nếu bạn đang ở trong vùng số 5 này, đó là điều rất tốt; nhưng chưa đủ… vì khi không giỏi về thao tác lập trình và sử dụng máy tính, bạn không có khả năng tự thực hiện những ý tưởng, giả thuyết của mình mà phải phụ thuộc vào chuyên viên phân tích dữ liệu bên ngoài (những người ở vùng 2, 4 hoặc 6). Nếu bạn có đầy đủ cả 3 đặc tính: giỏi chuyên môn, giỏi thống kê, và giỏi lập trình: Bạn đã trở thành nhà khoa học dữ liệu (vùng 7).
Lan Phương (st)
Nguồn: http://machinelearningvn.freeforums.net/thread/15/ang-tr-gi-conway