Các nghiên cứu về toàn bộ bộ gen tạo ra lượng dữ liệu khổng lồ, từ hàng triệu trình tự DNA riêng lẻ đến thông tin về vị trí và số lượng trong số hàng nghìn gen được biểu hiện đến vị trí của các yếu tố chức năng trong bộ gen. Do số lượng và độ phức tạp của dữ liệu, việc so sánh các tình trạng sinh học khác nhau hoặc giữa các nghiên cứu được thực hiện bởi các phòng thí nghiệm riêng biệt có thể là một thách thức về mặt thống kê.
Qunhua Li, phó giáo sư thống kê tại Penn State cho biết: “Khi bạn có nhiều tình trạng, khó khăn là làm thế nào để phân tích dữ liệu cùng nhau theo cách vừa mạnh mẽ về mặt thống kê vừa hiệu quả về mặt tính toán”.
“Các phương pháp hiện tại rất tốn kém về mặt tính toán hoặc tạo ra các kết quả khó diễn giải về mặt sinh học. Chúng tôi đã phát triển một phương pháp gọi là CLIMB để cải tiến các phương pháp hiện có, hiệu quả về mặt tính toán và tạo ra các kết quả có thể diễn giải về mặt sinh học. Chúng tôi thử nghiệm phương pháp này trên ba loại dữ liệu bộ gen được thu thập từ tế bào tạo máu – liên quan đến tế bào gốc máu – nhưng phương pháp này cũng có thể được sử dụng để phân tích dữ liệu ‘omic’ khác.”
Các nhà nghiên cứu mô tả phương pháp CLIMB (Composite LIkelihood eMpirical Bayes) trong một bài báo đăng trên tạp chí Nature Communications .
Phương pháp CLIMB sử dụng các nguyên tắc từ hai kỹ thuật truyền thống để phân tích dữ liệu trên nhiều tình trạng. Một kỹ thuật sử dụng một loạt so sánh theo cặp giữa các tình trạng nhưng ngày càng trở nên khó diễn giải khi các tình trạng bổ sung được thêm vào. Một kỹ thuật khác kết hợp mô hình hoạt động của mỗi đối tượng trong các tình trạng thành một “vectơ liên kết”, chẳng hạn như một gen được điều chỉnh tăng, giảm hoặc không thay đổi trong từng loại tế bào. Vectơ liên kết phản ánh trực tiếp mô hình đặc hiệu của tình trạng và dễ diễn giải.
Tuy nhiên, vì có thể có nhiều kết hợp khác nhau ngay cả khi chỉ có một số ít tình trạng, nên các phép tính cực kỳ phức tạp về mặt tính toán. Để vượt qua thách thức này, cách tiếp cận thứ hai này tự đưa ra các giả định về cách đơn giản hóa dữ liệu không phải lúc nào cũng đúng.
“CLIMB sử dụng các khía cạnh của cả hai cách tiếp cận này,” Koch nói. “Cuối cùng, chúng tôi phân tích các vectơ liên kết, nhưng trước tiên, chúng tôi sử dụng các phân tích theo cặp để xác định các mẫu có khả năng tồn tại trước. Thay vì đưa ra các giả định về dữ liệu, chúng tôi sử dụng thông tin theo cặp để loại bỏ các kết hợp mà dữ liệu không hỗ trợ mạnh mẽ. Điều này làm giảm đáng kể không gian của các mẫu có thể có trong các tình trạng mà nếu không sẽ làm cho các tính toán trở nên chuyên sâu.”
Sau khi biên dịch tập hợp các véc-tơ liên kết có thể đã rút gọn, phương pháp này sẽ nhóm các đối tượng lại với nhau theo cùng một mẫu trong các tình trạng. Ví dụ, kết quả có thể cho các nhà nghiên cứu biết các tập hợp gen được điều hòa chung ở một số loại tế bào, nhưng lại bị điều hòa giảm ở những loại tế bào khác.
Các nhà nghiên cứu đã thử nghiệm phương pháp của họ trên dữ liệu thu thập được từ các thí nghiệm sử dụng công nghệ gọi là RNA-seq, có thể đo lượng RNA được tạo ra từ tất cả các gen được biểu hiện trong một tế bào, để kiểm tra xem liệu một số gen nhất định có giúp xác định loại tế bào nào của tế bào gốc tạo máu hay không.
Li cho biết: “So với phương pháp thông minh theo cặp phổ biến, kết quả của chúng tôi cụ thể hơn. “Danh sách gen của chúng tôi ngắn gọn hơn và phù hợp hơn về mặt sinh học”. Trong khi phương pháp theo cặp thông minh truyền thống đã xác định được sáu đến bảy nghìn gen quan tâm, CLIMB đã tạo ra một danh sách hẹp hơn nhiều gồm hai đến ba nghìn gen, với ít nhất một nghìn gen trong số đó được xác định trong cả hai phân tích.
Ross Hardison, T. Ming Chu – Giáo sư Hóa sinh và Sinh học Phân tử tại Penn State. “Phương pháp CLIMB đã rút ra một số gen quan trọng; một số trong số chúng chúng tôi đã biết và một số khác bổ sung cho những gì chúng tôi biết. Nhưng sự khác biệt là những kết quả này cụ thể hơn và dễ hiểu hơn rất nhiều so với những kết quả từ các phân tích trước đó.”
Các nhà nghiên cứu cũng sử dụng CLIMB trên dữ liệu được tạo ra từ một công nghệ thử nghiệm khác, ChIP-seq, có thể xác định vị trí dọc theo bộ gen mà một số protein nhất định liên kết với DNA. Họ đã khám phá cách thức liên kết của protein gọi là CTCF—một yếu tố phiên mã giúp thiết lập các tương tác cần thiết cho quá trình điều hòa gen trong nhân tế bào—có hoặc không thay đổi trên 17 quần thể tế bào, tất cả đều xuất phát từ cùng một tế bào gốc tạo máu.
Phân tích CLIMB đã xác định các danh mục khác nhau của các vị trí gắn với CTCF, một số cho thấy vai trò của yếu tố phiên mã này trong tất cả các tế bào máu và những loại khác thể hiện vai trò trong các loại tế bào cụ thể.
Cuối cùng, nhóm đã khám phá dữ liệu từ một công nghệ thử nghiệm khác, được gọi là DNase-seq, có thể xác định vị trí của các khu vực quy định, để so sánh khả năng tiếp cận của chất nhiễm sắc- một phức hợp DNA và protein- trong 38 loại tế bào của con người.
Koch cho biết: “Đối với cả ba thử nghiệm, chúng tôi muốn xem liệu kết quả của chúng tôi có liên quan đến sinh học hay không, vì vậy chúng tôi đã so sánh kết quả của mình với dữ liệu độc lập, chẳng hạn như các nghiên cứu về trình tự thông lượng cao của sửa đổi histone và dấu chân của yếu tố phiên mã”.
“Trong mỗi trường hợp, kết quả của chúng tôi tương ứng với các phương pháp khác này. Tiếp theo, chúng tôi muốn cải thiện tốc độ tính toán của phương pháp của mình và tăng số lượng tình trạng mà nó có thể xử lý. Ví dụ: dữ liệu về khả năng tiếp cận chất nhiễm sắc thể có sẵn cho nhiều loại tế bào hơn, vì vậy chúng tôi muốn tăng quy mô của CLIMB.”
Nguyễn Quý (dịch)
Nguồn: https://phys.org/news/2022-11-statistical-method-genomic-analyses.html