Tăng cường phân tích dữ liệu lớn từ giới hàn lâm, thương mại nhằm đẩy mạnh việc khám phá vũ trụ

Trong cuộc họp về Thống kê (JSM 2015) tại Seattle, Lars K.S. Daldorff và Siavoush Mohammadi đã nói về việc các nhà thống kê đã kết hợp những phương pháp phân tích hiện đại từ giới hàn lâm và giới thương mại để giải quyết những thách thức trong vật lý thiên văn cũng tương tự  các nhà thiên văn học phải đương đầu giúp họ khám phá ra những bí ẩn của vũ trụ.

Những tiến bộ kỹ thuật – hay còn được gọi là những phân tích khám phá dữ liệu – có khả năng tuyệt vời trong việc giúp đỡ các nhà khoa học bởi những phân tích này giúp họ tìm hiểu về vũ trụ của chúng ta, cũng như giúp đỡ các nhà nghiên cứu hay những người làm việc với dữ liệu lớn ở các lĩnh vực khác, đó là phát biểu của ngài Daldorff và Mohammadi trong bài trình bày với chủ đề  “Áp dụng mới đối với các công cụ Thống kê trong phân tích dữ liệu lớn về nguồn năng lượng mặt trời” tại JSM 2015.

Daldorff là một nhà khoa học về các lĩnh vực khí quyển, đại dương và không gian tiến hành nghiên cứu tại khoa kỹ thuật Đại học Michigan, đồng thời cũng là một chuyên gia tư vấn cho trung tâm du hành vũ trụ Goddard của NASA, còn Mohammadi là chuyên gia tư vấn cho Infotrek, một công ty lưu trữ dữ liệu và kinh doanh thông minh của Thụy Điển.

Các công cụ phân tích mới mà Daldoff và Mohammadi mô tả từng được sử dụng trong nghiên cứu về sóng từ khổng lồ sinh ra bởi hệ thống năng lượng mặt trời. Khi các nhà vật lý sử dụng các siêu máy tính để mô phỏng mặt trời, các nghiên cứu của họ đã tạo ra một lượng khổng lồ các dữ liệu, nhưng hiện tượng thú vị lại thường được đặt tại một điểm cụ thể về không gian thời gian, cơ bản tạo ra một tình huống khó như mò kim đáy bể đối với các nhà nghiên cứu.

Khối lượng lớn dữ liệu buộc các nhà vật lý phải giảm bớt lượng dữ liệu, bằng cách quan sát từng phần nhỏ dữ liệu tại một thời điểm, trong một quá trình lâu dài và chậm trước khi bản chất được tìm ra.

Nhưng điều gì sẽ xảy ra nếu bạn có thể quét toàn bộ đáy bể cùng một lúc để tìm ra chiếc kim?  Đó là câu hỏi mà Daldorff và Mohammadi đã tìm kiếm để trả lời khi họ quan sát ngành lưu trữ dữ liệu thương mại với các giải pháp nhằm tìm kiếm, phân loại và lọc ra một lượng lớn những dữ liệu nghiên cứu về mặt trời từ mô phỏng plasma mà Daldorff đã thực hiện cho NASA.

Hiện vẫn còn nhiều câu hỏi mở xung quanh các sóng mặt trời kết hợp với điểm năng lượng mặt trời, nguyên nhân gây ra sự gia tăng đáng kể của tia X và các bức xạ nguy hiểm từ bên ngoài khí quyển Mặt trời vào thượng tầng khí quyển Trái đất. Hiện tượng có thể nhìn thấy thông qua đoạn video được công bố bởi Phòng khoa học Hellophysis của NASA, như là một phần dự án quan sát các nguồn năng lượng Mặt trời.

Cộng đồng vật lý thiên văn học dự đoán một hiện tượng được gọi là “tái kết nối từ trường” xảy ra khi những năng lượng hình vòm được tạo nên. Thời điểm này, chính là dữ liệu mà những nhà nghiên cứu như Daldorff và Mohammadi muốn xác định cụ thể cả về không gian lẫn thời gian- ở đâu và khi nào.

Bộ đôi này đã sử dụng phương pháp thống kê thường được sử dụng trong cơ sở dữ liệu và thông qua các phép phân tích tại các công ty để nghiên cứu về hành vi của con người – chẳng hạn như, hành vi khách hàng – hoặc dữ liệu khoa học, trong trường hợp này là các nhật hoa. Đây là các phương pháp phân tích kết hợp giữa sức mạnh tính toán và thống kê để tìm ra bản chất từ thông tin. Các phương pháp chuẩn hóa này đã được sử dụng rộng rãi trong giới thương mại, ngay lập tức được dùng cho một dạng hoàn toàn khác của dữ liệu.

Đối với những công cụ phân tích, chúng tôi đã sử dụng nền tảng phân tích trực giác của SAS- một công cụ khai thác và báo cáo dữ liệu lớn làm việc trong bộ nhớ. Rất nhiều các phương pháp thống kê sử dụng trong phân tích trực quan SAS cũng là các phương pháp thống kê tiêu chuẩn dùng cho kho dữ liệu khổng lồ.

Các công cụ phân tích và các phương pháp này không quan trọng loại dữ liệu của bạn là gì. Các phương pháp xác định những điểm quan tâm, thực hiện việc phân tích và minh họa cũng như tạo ra các báo cáo đều giống nhau, không phân biệt là chúng được sử dụng trong dữ liệu thương mại hay khoa học, Daldorff và Mohammadi đã phát biểu trước những đại biểu tham dự phiên họp.

Việc khám phá tự động các tập dữ liệu lớn sử dụng các phương pháp phân tích thống kê hiện đại có thể giảm rất nhiều thời gian để tìm ra bản chất của dữ liệu lớn – không chỉ cho nghiên cứu vật lý thái dương học, mà còn cho tất cả các đối tượng nghiên cứu chuyên sâu. Nó loại bỏ phần lớn các bước lặp đi lặp lại và tự động thực hiện, nó cho phép các chuyên gia tập trung vào chủ đề nghiên cứu thay vì phải xử lý dữ liệu một cách thủ công.

“Chúng tôi hy vọng những kết quả này có thể giúp cho công tác nghiên cứu của NASA về các sóng từ của mặt trời, đồng thời công việc của chúng tôi cũng sẽ cho thấy tính hiệu quả của việc phân tích khai thác dữ liệu đối với những lĩnh vực chuyên sâu khác. Rất nhiều khả năng ứng dụng mới này có thể sẽ là giúp ích tiềm năng cho nhiều nghiên cứu khác – trong lĩnh vực hàn lâm, thương mại và khoa học – nhanh chóng tìm ra kết quả và những điều ẩn chứa bên trong từ nghiên cứu dữ liệu lớn của chúng tôi”, ngài Daldorff nói.

JSM 2015 diễn ra từ ngày 8-13 tháng 8 năm 2015 tại Trung tâm hội nghị Washington tại bang Seattle. Hơn 6000 nhà thống kê – đại diện cho giới hàn lâm, thương mại và công nghiệp, cũng như các chính quyền quốc gia, các bang và chính quyền địa phương – từ rất nhiều quốc gia đã tới tham dự cuộc họp khoa học thống kê lớn nhất Bắc Mỹ.

Minh Ánh (dịch)

Nguồn: http://www.sciencedaily.com/releases/2015/08/150810110624.htm