Khác biệt giữa bản sửa đổi của “Tin sinh học”

Nội dung được xóa Nội dung được thêm vào
OctraBot (thảo luận | đóng góp)
n Thay thế ‘(?mi)\{\{Liên kết chọn lọc\|.+?\}\}\n?’ bằng ‘’.: deprecated template
n đánh vần, replaced: qui luật → quy luật (2)
Dòng 1:
{{chú thích trong bài}}'''Tin sinh học''' (''bioinformatics'') là một lĩnh vực khoa học sử dụng các công nghệ của các ngành [[toán học ứng dụng]], [[tin học]], [[khoa học Thống kê|thống kê]], [[khoa học máy tính]], [[trí tuệ nhân tạo]], [[hóa học]] và [[hóa sinh]] (''biochemistry'') để giải quyết các vấn đề [[sinh học]]. Một thuật ngữ thường được dùng thay thế cho tin sinh học là '''sinh học tính toán''' (''computational biology''). Tuy nhiên, tin sinh học thiên về việc phát triển các giải thuật, lý thuyết và các kĩ thuật thống kê và tính toán để giải quyết các bài toán bắt nguồn từ nhu cầu quản lí và phân tích dữ liệu sinh học. Trong khi đó, sinh học tính toán thiên về kiểm định các giả thuyết (hypothesis) được đặt ra của một vấn đề trong sinh học nhờ máy tính thực nghiệm trên dữ liệu mô phỏng, với mục đích chính là phát hiện và nâng cao tri thức về sinh học (ví dụ: dự đoán mối quan hệ tương tác giữa các protein, dự đoán cấu trúc bậc 2 phân tử của protein, v.v.).
 
Do đó, các nghiên cứu trong ngành [[sinh học tính toán]] (''computational biology'') thường trùng lặp với [[sinh học hệ thống]] (''systems biology''). Những lĩnh vực nghiên cứu chính của nó bao gồm [[bắt cặp trình tự]] (''sequence alignment''), [[bắt cặp cấu trúc protein]] (''protein structural alignment''), dự đoán [[cấu trúc protein]] (''protein structure prediction''), dự đoán [[biểu hiện gen]]e (''gene expression'') và [[tương tác protein - protein]] (''protein-protein interactions''), và [[mô hình hóa quá trình tiến hoá]]. Thuật ngữ ''tin sinh học'' và ''sinh học tính toán'' thường được dùng hoán đổi cho nhau, mặc dù cái trước, nói một cách nghiêm túc, là tập con của cái sau. Những mối quan tâm chính trong các dự án tin sinh học và sinh học tính toán là việc sử dụng các công cụ toán học để trích rút các thông tin hữu ích từ các [[dữ liệu hỗn độn]] được thu nhận từ các kĩ thuật sinh học với lưu lượng mức độ lớn. (Lĩnh vực [[khai phá dữ liệu]] (''data mining'') trùng lắp với sinh học tính toán về phương diện này.) Những bài toán đặc trưng trong sinh học tính toán bao gồm việc lắp ráp (''assembly'') những [[trình tự]] [[ADN|DNA]] chất lượng cao từ các đoạn ngắn DNA được thu nhận từ [[kỹ thuật xác định trình tự đoạn ngắn|kỹ thuật xác định trình tự DNA]] (''shotgun sequencing''), và việc dự đoán quiquy luật [[điều hòa gene]] (''gene regulation'') với dữ liệu từ các [[aRN thông tin|mRNA]], [[DNA microarray|microarray]] hay [[phương pháp phổ khối lượng|khối phổ]] (''mass spectrometry'').
 
[[Tập tin:dna-split.png|nhỏ|phải|150px|Lý giải những thông tin thu được từ các nguồn cơ sở dữ liệu khổng lồ về DNA chỉ là một trong nhiều bài toán mà các nhà tin sinh học phải giải quyết]]
Dòng 11:
''Bài chính: [[Bắt cặp trình tự]], [[ngân hàng cơ sở dữ liệu gene|CSDL trình tự]]''
 
Kể từ khi [[bộ gen]]e của [[Phi-X174|Phage Φ-X174]] được [[xác định trình tự]] ([[1977]]) cho đến nay, [[trình tự ADN|trình tự DNA]] của rất nhiều loài sinh vật đã được lưu trữ trong các ngân hàng cơ sở dữ liệu gene. Những dữ liệu này sẽ được phân tích để tìm ra những [[gene cấu trúc]] (gene mã hoá cho một [[protein]] nào đó), cũng như tìm ra quiquy luật của những trình tự tương đồng giữa các protein). Việc so sánh các gene trong cùng một [[loài]] hay giữa các loài khác nhau có thể cho thấy sự tương đồng về chức năng của protein, hay mối quan hệ phát sinh chủng loài giữa những loài này (thể hiện trên [[cây phát sinh chủng loài]] (''phylogenetic tree'')). Với sự tăng trưởng khổng lồ của dữ liệu loại này, việc phân tích [[trình tự ADN|trình tự DNA]] một cách thủ công trở nên không thể thực hiện nổi.
 
Ngày nay, các ''chương trình máy tính'' được sử dụng để giúp tìm các trình tự tương đồng trong [[bộ gen|bản đồ gen]] (''genome'') của hàng loạt sinh vật, với số lượng [[nucleotide]] trong trình tự lên đến hàng tỉ. Những chương trình này có thể tìm kiếm những trình tự DNA không giống nhau hoàn toàn do các [[đột biến nucleotide]] (thay thế, mất hay thêm các gốc base). Những giải thuật [[bắt cặp trình tự]] (''sequence alignment'') cũng được áp dụng ngay cả trong quá trình [[xác định trình tự DNA]], là kỹ thuật [[xác định trình tự đoạn nhỏ]] (''shotgun sequencing''). (Kỹ thuật này đã được công ty Celera Genomics sử dụng để xác định trình tự genome của [[vi khuẩn]] ''[[Haemophilus influenza]]''.) Kỹ thuật xác định trình tự hiện nay không thể tiến hành với cả đoạn trình tự DNA lớn (cỡ vài chục nghìn nucleotide trở lên) nên người ta sử dụng xác định trình tự nhỏ để giải mã hàng nghìn đoạn trình tự với kích thước khoảng 600 - 800 [[nucleotide]]. Sau đó, những đoạn trình tự nhỏ này sẽ được sắp xếp thứ tự và nối lại với nhau (thông qua việc [[bắt cặp trình tự]] ở những đầu gối lên nhau (''overlap'')) tạo thành một trình tự genome hoàn chỉnh.