Khác biệt giữa bản sửa đổi của “Tin sinh học”

Nội dung được xóa Nội dung được thêm vào
MystBot (thảo luận | đóng góp)
Xqbot (thảo luận | đóng góp)
n [r2.5.2] robot Thêm: fa:بیوانفورماتیک; sửa cách trình bày
Dòng 5:
[[Tập tin:dna-split.png|nhỏ|phải|150px|Lý giải những thông tin thu được từ các nguồn cơ sở dữ liệu khổng lồ về DNA chỉ là một trong nhiều bài toán mà các nhà tin sinh học phải giải quyết]]
 
== Các lĩnh vực nghiên cứu chính ==
 
=== Genomics - Hệ gene học ===
==== Phân tích trình tự ====
''Bài chính: [[Bắt cặp trình tự]], [[ngân hàng cơ sở dữ liệu gene|CSDL trình tự]]''
 
Dòng 22:
''Xem thêm:'' [[phân tích trình tự]], [[công cụ định danh chuỗi]] (''sequence profiling tool''), [[trình tự motif]].
 
==== Chỉ định Genome ====
''Bài chính:'' [[Tìm kiếm gene]]
 
Về phía lĩnh vực gen chuyên về nghiên cứu bản đồ gen (genomics), '''annotation''' là quá trình đánh dấu các gen và các đặc tính sinh học (''biological features'') khác trong một chuỗi DNA. Hệ thống phần mềm làm nhiệm vụ "genome annotation" đầu tiên đã được thiết kế vào năm 1995 bởi Owen White, anh thuộc nhóm đảm nhiệm việc sắp xếp trình tự và phân tích bản đồ gen đầu tiên của các sinh vật tự do ('''free-living organism'') để giải mã, khuẩn [[Haemophilus influenzae]]. Dr. White đã xây dựng hệ thống phần mềm này để tìm kiếm các gen (nằm trong chuỗi DNA nhằm nhiệm vụ mã hóa các proteine), RNA chuyển vận (transfer RNA), và các chức năng khác, và để tạo các chức năng đầu tiên cho các gen đó. Hầu hết các hệ thống ''genome annotation'' hiện nay đều hoạt động tương tự, nhưng các chương trình nhằm để phân tích lãnh vực nghiên cứu bản đồ gen DNA (''genomic DNA'') thì thường xuyên thay đổi và được cải tiến. Hệ thống [[Ensembl]] là hệ thống ''genome annotation pipeline'' cho bản đồ gen người được phát triển bởi Ewan Birney tại viện Sanger (The Sanger Institute) gần [[Cambridge]], England{{ref|ensembl}}.
 
==== Dò tìm đột biến và SNP ====
 
Rất nhiều các nghiên cứu [[xác định trình tự]] (''sequencing'') hiện nay là nhằm tìm ra các [[đột biến điểm]] (''point mutation'') xảy ra trên các [[gene]] khác nhau trong [[ung thư]]. Tập sơ khởi (''sheer volume'') các dữ liệu được tạo ra đòi hỏi các hệ thống tự động đọc những dữ liệu kiểu chuỗi này (''sequence data''), rồi so sánh trình tự kết quả với các trình tự đã biết trên [[genome người]], bao gồm cả những [[điểm đa hình]] trên [[tế bào dòng tinh]] (''germline'') đã biết.
Dòng 34:
 
=== Sinh học tiến hoá ===
==== Phân loại học phân tử ====
[[Sinh học tiến hoá]] (''Evolutionary biology'') là ngành học nghiên cứu tổ tiên, hậu duệ cũng như quá trình phát triển của các chủng loài theo thời gian. Những phát triển gần đây trong lĩnh vực xác định trình tự gen và sự phổ biến các [[máy tính]] tốc độ cao cho phép các nhà nghiên cứu theo dõi sự tiến hoá của các loài dựa trên những thay đổi trong trình tự [[DNA]]. [[Tiến hóa học máy tính]] (''Computational Evolutionary Biology'', CEB) đã ra đời trước kỷ nguyên hệ gene học (genomics) nghiên cứu xây dựng các mô hình tính toán [[quần thể]] và sự biến thiên của chúng theo thời gian.
 
Tiếp cận vấn đề theo chiều hướng ngược lại với CEB --- thay vì sử dụng các chương trình máy tính để điều tra quá trình tiến hoá, lĩnh vực [[giải thuật di truyền]] (genetic algorithm) tìm cách tối ưu hóa những chương trình máy tính thông qua các nguyên lí tiến hoá (''evolutionary principles'').
 
==== Bảo tồn đa dạng sinh học ====
Tin sinh học thường áp dụng trong lĩnh vực bảo tồn đa dạng sinh học (biodiversity). Thông tin quan trọng nhất được thu thập chính là tên, miêu tả, sự phân bố, trạng thái và kích thước [[dân số]] của các chủng loài ([[species]]), nhu cầu thói quen ([[Habitat (ecology)|habitat]]) và cách mà mỗi tổ chức tương tác với các chủng loài khác. Thông tin này được lưu trữ vào trong [[cơ sở dữ liệu]] các máy tính, được truy xuất bởi các chương trình [[phần mềm máy tính|phần mềm]] để tìm kiếm, hiển thị, phân tích các thông tin đó một cách tự động, và quan trọng nhất, là để giao tiếp được với con người, đặc biệt qua [[internet]]. Các chuỗi [[DNA]] của các [[loài sắp tuyệt chủng]] có thể được bảo quản, và tên cùng miêu tả của mỗi loài đang bị giam giữ được lưu lại để có thể cho phép truy xuất tối đa đến các thông tin cần cho việc bảo tồn đa dạng sinh học.
 
Một ví dụ của ứng dụng này là dự án Species 2000 {{ref|Species_2000}}. Nó là một dự án nghiên cứu toàn cầu dựa vào internet để giúp cung cấp thông tin về mỗi chủng loài được biết đến của [[cây]], [[động vật]], [[nấm]] (fungus), và [[vi khuẩn]] (microbe) còn tồn tại để làm nền tảng cho việc nghiên cứu đa dạng sinh học toàn cầu. Bất cứ ai trên thế giới cũng có thể tìm thấy lượng lớn thông tin về bất kì chủng loài nào từ các cơ sở dữ liệu cung cấp.
 
=== Phân tích chức năng gene ===
==== Mức độ biểu hiện gene ====
 
Nhà [[sinh học phân tử]] có thể đánh giá mức độ [[biểu hiện gene|biểu hiện]] của một gene bằng cách xác định lượng [[mRNA]] được tạo ra từ gene đó thông qua các kỹ thuật như [[microarray]], [[EST]] (''expressed sequence tag''), [[SAGE]] (''Serial Analysis of Gene Expression''), [[MPSS]] (''massively parallel signature sequencing''), hay [[khối phổ]] ([[định lượng protein]]). Tất cả những kĩ thuật trên đều tạo ra những dữ liệu chứa [[thông tin nhiễu]] (''noise-prone'') làm việc tính toán, phân tích trở nên phức tạp. Yêu cầu thực tế đó đã cho ra đời một lĩnh vực mới trong [[sinh học tính toán]] là phát triển các công cụ thống kê để lọc [[tín hiệu (thông tin)|tín hiệu]] xác đáng khỏi [[thông tin nhiễu]] trong những [[nghiên cứu biểu hiện gene đa lượng]] (''high-throughput gene expression''). Các nghiên cứu này thường dùng để xác định các [[gene]] liên quan đến một [[bệnh]] lý nhất định, người ta có thể so sánh dữ liệu [[microarray]] từ những [[tế bào]] bị [[ung thư]] với tế bào bình thường để xác định những [[protein]] nào được tăng cường hay giảm thiểu do ung thư.
Dòng 52:
Dữ liệu biểu hiện gene cũng được dùng để nghiên cứu [[điều hòa gen]], người ta có thể so sánh dữ liệu [[microarray]] của một sinh vật ở những trạng thái sinh lý khác nhau từ đó kết luận về vài trò của từng gen tham gia vào mỗi trạng thái. Đối với [[sinh vật đơn bào]], ta có thể so sánh các giai đoạn khác nhau của [[chu kỳ tế bào]] (''cell cycle''), hay phản ứng của cơ thể ở những điều kiện [[stress]] ([[stress sốc nhiệt]], [[stress đói dinh dưỡng]], .v.v.). Người ta cũng có thể áp dụng [[giải thuật phân nhóm]] (''clustering algorithms'') đối với những dữ liệu biểu hiện để xác định những nhóm gene đồng biểu hiện, hay [[đơn vị điều hòa]] (''regulon''). Những phân tích tiếp theo có thể triển khai theo nhiều hướng, ví dụ phân tích trình tự [[promoter]] của những nhóm gene để xác định [[nhân tố điều hòa]] chung hoặc sử dụng các công cụ máy tính để dự đoán những promoter liên quan đến cơ chế điều hòa từng nhóm gene (tham khảo [http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=pubmed&dopt=Abstract&list_uids=15084257]).
 
==== Nhận diện protein ====
''Bài chính'': [[Nhận diện chuỗi polypeptide]]
 
[[Microarray|Protein microarray]] và hệ thống [[khối phổ]] cao năng (''high throughput mass spectrometry'') có thể cung cấp hình ảnh (''snapshot'') tổng thể của các protein hiện có trong một mẫu sinh học (''biological sample''). Các ứng dụng tin sinh học có liên quan rất nhiều đến việc lý giải các dữ liệu thu được từ những hệ thống này. Đối với protein microarray, những nhà tin sinh học cần chuyển kiểm tra dữ liệu mRNA gắn trên array. Trong khi đó, những vấn đề tin sinh học liên quan đến việc so trùng (''matching'') dữ liệu khối phổ với cơ sở dữ liệu về trình tự protein.
 
==== Dự đoán cấu trúc protein ====
''Bài chính: [[Dự đoán cấu trúc protein]]''
 
Dòng 70:
''Xem thêm: [[motif cấu trúc]]''
 
=== Các hệ thống sinh học kiểu mẫu ===
''Bài chính: [[sinh học hệ thống]]''
 
Sinh học hệ thống bao gồm việc sử dụng khả năng [[mô phỏng bằng máy tính]] (computer simulation) các hệ cơ quan tế bào [[cell (biology)|cellular]] (như mạng các metabolites và [[enzyme]], chúng bao gồm các [[metabolism]], [[signal transduction]] pathways và [[gene regulatory network]]s) để có thể phân tích và hiển thị hoá (visualize) việc kết nối phức tạp của các quá trình tế bào này. [[Sự sống nhân tạo]] (Artificial life) hay tiến hoá ảo nỗ lực nhằm tìm hiểu quá trình tiến hoá thông qua việc mô phỏng bằng máy tính các dạng sự sống (nhân tạo) đơn giản.
 
=== Phân tích hình ảnh mức độ cao ===
 
Các kĩ thuật tính toán cũng được dùng để tăng tốc độ hoặc giúp tự động hoàn toàn quá trình xử lí, định lượng và phân tích một lượng lớn các [[hình ảnh sinh học]] có chứa-thông-tin-cao. Các hệ thống xử lí ảnh hiện đại tăng cường khả năng quan sát để giúp cho việc tính toán từ một tập lớn và phức tạp các hình ảnh, bằng cách cải tiến [[độ chính xác]], [[tính khách quan]], hay tốc độ. Một hệ thống phân tích được phát triển hoàn thiện có thể hoàn toàn thay thế người quan sát. Trong khi những hệ thống này không chỉ duy nhất phục vụ cho các ảnh liên quan đến sinh học, ứng dụng của chúng đối với các vấn đề sinh học vẫn tiếp tục tìm các giải pháp và là một thách thức, nhằm đưa nhiều ứng dụng xử lí ảnh về cùng thuộc lĩnh vực tin sinh học. Những hệ thống này đang dần trở thành quan trọng đối với cả [[chẩn đoán]] và nghiên cứu. Một vài ví dụ là:
Dòng 87:
* Đo đạc bằng tia hồng ngoại để xác định các hoạt động trao đổi chất
 
== Công cụ phần mềm ==
 
Một trong các công cụ dùng trong sinh học tính toán (''computational biology'') nổi tiếng nhất là [[BLAST]], một giải thuật để tìm kiếm những [[trình tự]] [[nucleic acid]] hoặc [[protein]] tương đồng lưu trữ trên các [[cơ sở dữ liệu]]. Ba nguồn cơ sở dữ liệu công cộng lớn nhất về trình tự [[DNA]] và protein (thường được gọi là [[ngân hàng cơ sở dữ liệu gene|ngân hàng gene]] (ngân hàng cơ sở dữ liệu gene) là [[NCBI]], [[EMBL]] và [[DDBJ]].
Dòng 93:
Các [[ngôn ngữ lập trình]] của [[máy tính]] như [[Perl]] và [[Python]] thường được dùng để giao tiếp (''interface'') và ly trích (''[[parse]]'') dữ liệu từ các [[ngân hàng cơ sở dữ liệu sinh học]] (''biological database'') thông qua những [[chương trình tin sinh học]] (''bioinformatics program''). Cộng đồng những [[lập trình viên]] tin sinh học đã triển khai nhiều dự án [[phần mềm mã nguồn mở]] (''free/open source'') như [[EMBOSS]], [[Bioconductor]], [[BioPerl]], [[BioPython]], [[BioRuby]] và [[BioJava]]. Điều này giúp cho việc chia sẻ, phát triển và phổ biến các [[công cụ lập trình]] và [[tài nguyên lập trình]] (''programming objects'') giữa các nhà tin sinh học.
 
== Xem thêm ==
* [[Biologically-inspired computing]]
* [[Morphometrics]]
Dòng 99:
* [[List of publications in biology#Bioinformatics|Important publications in bioinformatics]]
 
=== Môn học liên quan ===
* [[Toán ứng dụng]]
* [[Sinh học]]
Dòng 107:
* [[Sinh học lý thuyết]]
 
== Tham khảo ==
* R. Durbin, S. Eddy, A. Krogh and G. Mitchison, ''Biological sequence analysis''. Cambridge University Press, 1998. ISBN 0-521-62971-3
* Kohane, et al. ''Microarrays for an Integrative Genomics.'' The MIT Press, 2002. ISBN 0-262-11271-X
Dòng 113:
* JM. Claverie, C. Notredame, ''Bioinformatics for Dummies''. Wiley, 2003. ISBN 0-7645-1696-5
 
== Liên kết ngoài ==
 
* [http://www.ornl.gov/TechResources/Human_Genome/research/informatics.html Human Genome Project and Bioinformatics]
Dòng 124:
* [http://bio.oreilly.com/ Books and articles on Bioinformatics from O'Reilly]
 
=== Dự án phần mềm ===
* [http://biomap.org/ BIOMAP Project] – Creating a Unified Global Map of various Macromolecular Biological Structures
* [http://proteomeontology.org/ Proteome Ontology Project] – an effort to build a protein ontology specification, part of the BIOMAP Project
Dòng 138:
* [http://www.gmod.org/ The Generic Model Organism Database Project (GMOD)]
 
=== Tổ chức ===
* [http://www.ebi.ac.uk/ European Bioinformatics Institute]
* [http://www.ncbi.nlm.nih.gov/ National Center for Biotechnology Information]
Dòng 145:
* [http://www.iscb.org/ The International Society for Computational Biology]
 
=== Thư mục ===
** [http://www.bioinformatics.ca/ Bioinformatics.ca: một cổng điện tử của các hoạt động tin sinh học tại Canada]
** [http://www.bioinformatics.vg/ Bioinformatics.net: thư mục các công cụ phần mềm]
Dòng 171:
** [http://wikiomics.org Wikiomics.org]: bioinformatics wiki cho người dùng và các nhà phát triển Tin sinh học trên toàn thế giới. Tập trung vào các câu hỏi thực tiễn và hướng đến các ấn phẩm học thuật và các nguồn phần mềm (khai trương vào tháng 11 năm 2005).
 
== Sách tham khảo ==
* Baxevanis, A.D. and Ouellette, B.F.F., eds., ''Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins'', third edition. Wiley, 2005. ISBN 0-471-47878-4
* Claverie, J.M. and C. [[Notredame]], ''Bioinformatics for Dummies''. Wiley, 2003. ISBN 0-7645-1696-5
Dòng 208:
[[es:Bioinformática]]
[[eo:Biokomputiko]]
[[fa:بیوانفورماتیک]]
[[fr:Bio-informatique]]
[[ko:생물정보학]]