Khác biệt giữa bản sửa đổi của “Metagenomics”

Nội dung được xóa Nội dung được thêm vào
n AlphamaEditor, General Fixes
n AlphamaEditor, General Fixes
Dòng 2:
{{cần biên tập}}
[[Tập tin:Iron hydroxide precipitate in stream.jpg|thumb|right|Với Metagenomics ta có thể nghiên cứu các quần xã vi sinh vật, ví dụ như quần xã vi sinh ở dòng suối bị axit hóa do khai khoáng như ở hình trên.]]
'''Metagenomics''' là nghiên cứu về '''metagenomes''', nhằm thu vật liệu di truyền trực tiếp từ các mẫu trong môi trường. Lĩnh vực rộng lớn này có thể được hiểu là '''di truyền học môi trường''',''' di truyền học sinh thái''' hay '''di truyền học quần xã'''. Nếu như di truyền học và vi sinh vật học truyền thống giải trình tự bộ gen (genome sequencing) của vi sinh vật dựa trên mẫu là các mẫu dòng đã nuôi cấy, thì ngay từ những nghiên cứu đầu tiên, di truyền học môi trường đã nhân dòng các đoạn trình tự gen đặc hiệu (thường là gen 16S rRNA) để xây dựng dữ liệu về đa dạng sinh học của các mẫu môi trường. Với những nghiên cứu bước đầu đó, người ta đã nhận ra rằng nếu chỉ tiếp tục nghiên cứu theo kiểu truyền thống thì sẽ không thể tìm hiểu về sự đa dạng sinh học của vi sinh vật được.<ref name="Hugenholz1998"/>
{{cite Nhữngjournal
| nghiênlast cứu= metagenomicsHugenholz
| gầnfirst đây= thườngP
thực hiện|author2=Goebel bằngBM phương|author3=Pace phápNR
Sanger ("shotgun" [[chain termination method|Sanger sequencing]]),date=1 hoặcSeptember song1998| songtitle với= phươngImpact phápof [[pyrosequencing]]Culture-Independent đểStudies on cácthe mẫuEmerging củaPhylogenetic tấtView cảof cácBacterial genDiversity
từ mỗi| journal thể= trong quần xã mẫuJ.<ref name="Eisen2007"/>Bacteriol
Chính | vaivolume trò= quan180
trọng trong| việcpages khám= phá4765–74
đa dạng| vipmid sinh= vật mà metagenomics có thể được coi như một lăng kính giúp ta hiểu hơn về thế giới của các sinh vật nhỏ bé, đóng góp vào hiểu biết của nhân loại về toàn bộ thế giới sống.<ref name="MarcoD2011"/>9733676
| issue = 18
| pmc = 107498 }}
</ref> Những nghiên cứu metagenomics gần đây thường thực hiện bằng phương pháp Sanger ("shotgun" [[chain termination method|Sanger sequencing]]), hoặc song song với phương pháp [[pyrosequencing]] để có các mẫu của tất cả các gen từ mỗi cá thể trong quần xã mẫu.<ref name="Eisen2007">
{{cite journal
| last=Eisen| first= JA
| year= 2007| title= Environmental Shotgun Sequencing: Its Potential and Challenges for Studying the Hidden World of Microbes
| doi= 10.1371/journal.pbio.0050082| journal= PLoS Biology
| volume= 5| issue=3| pages= e82
| pmid=17355177
| pmc=1821061}}
</ref> Chính vì vai trò quan trọng trong việc khám phá đa dạng vi sinh vật mà metagenomics có thể được coi như một lăng kính giúp ta hiểu hơn về thế giới của các sinh vật nhỏ bé, đóng góp vào hiểu biết của nhân loại về toàn bộ thế giới sống.<ref name="MarcoD2011"/>
 
==Nguồn gốc từ==
Thuật ngữ "metagenomics" được giới thiệu bởi [[Jo Handelsman]], [[Jon Clardy]], [[Robert M. Goodman]] và một số người khác, và xuất hiện lần đầu trong một bài báo vào năm 1998.<ref name="Handelsman1998">
{{cite doi|10.1016/S1074-5521(98)90108-9}}.</ref> Thuật ngữ metagenome phản ánh ý tưởng về bộ sưu tầm các gen được giải mã trực tiếp từ môi trường với cách tương tự như nghiên cứu về từng [[genome]]. Kevin Chen and [[Lior Pachter]] ([[University of California, Berkeley]]) đã định nghĩa metagenomics là " việc ứng dụng các kỹ thuật di truyền hiện đại trong nghiên cứu về quần xã vi sinh vật một cách trực tiếp trong môi trường tự nhiên của chúng mà không cần phải phân lập và nuôi cấy chúng trong phòng thí nghiệm".<ref name="Chen2005"/>
{{cite doi
|10.1371/journal.pcbi.0010024}}</ref>
 
==Lịch sử==
Việc giải trình tự theo kiểu truyền thống thường bắt đầu bằng việc nuôi cấy các tế bào giống hệt nhau để làm nguồn phân lập [[DNA]]. Các nghiên cứu metagenomic đã cho thấy vẫn còn rất nhiều nhóm vi sinh vật trong tự nhiên mà chúng ta không thể phân lập và nuôi cấy được, và vì vậy không thể giải trình tự của chúng được. Những nghiên cứu đầu tiên của metagenomic tập trung vào đoạn trình tự của rRNA 16S (16S [[ribosomal]] [[RNA]]), là đoạn trình tự tương đối ngắn, bảo thủ và đặc trưng cho mỗi loài. Từ đó người ta đã phát hiện ra rất nhiều đoạn trình tự rRNA 16S mới, không giống bất cứ một loài đã biết nào. Những khảo sát về gen trên rRNA thực hiện trực tiếp từ môi trường đã cho thấy, số lượng loài vi khuẩn và vi khuẩn cổ (archaea) đã tìm thấy trước đây bằng phương pháp giải trình tự theo kiểu truyền thống chỉ tương đương khoảng 1% số lượng thực của chúng trong môi trường.  
 
Những nghiên cứu đầu tiên ở mức độ phân tử đã được thực hiện bởi [[Norman R. Pace]] và các cộng sự. Họ sử dụng [[PCR]] để khám phá ra sự đa dạng của các trình tự rRNA.<ref name="Lane1985">
Những nghiên cứu đầu tiên ở mức độ phân tử đã được thực hiện bởi [[Norman R. Pace]] và các cộng sự. Họ sử dụng [[PCR]] để khám phá ra sự đa dạng của các trình tự rRNA.<ref name="Lane1985" /> Với những kết quả của nghiên cứu này, vào năm 1985 Pace đã đề xuất ý tưởng nhân dòng DNA trực tiếp từ môi trường.<ref name="Pace1985" /> Tới năm 1991 ông và cộng sự tại Khoa Sinh học, trường đại học Indiana đã có báo cáo đầu tiên về nhân dòng một lượng lớn DNA từ môi trường. Nghiên cứu của họ đã khẳng định rằng không hề có lỗi trong quá trình thực hiện PCR và những loài mới trong quần xã vi sinh vật là thực sự tồn tại. Mặc dù chỉ thực hiện với đoạn trình tự bảo thủ và không mã hóa, công trình trên đã chứng minh và giải thích tại sao các nghiên cứu về đa dạng sinh học trước đây bằng phương pháp hình thái học thường mang lại nhiều kết quả hơn so với phương pháp phân tích qua phân lập và nuôi cấy. Ngay sau đó, vào năm 1995 Healy đã công bố kết quả phân lập metagenomic của các gen chức năng trong "thư viện động vật" xây dựng từ hệ sinh vật tự nhiên trên cỏ khô trong phòng thí nghiệm.<ref name="Healy1995" /> Sau khi rời phòng thí nghiệm của Pace, [[Edward DeLong]]  tiếp tục nghiên cứu về lĩnh vực này và đã xuất bản công trình làm nền móng cho phân loại sinh vật môi trường dựa trên trình tự 16S, đó là thành lập thư viện trình tự của các mẫu lấy từ biển.<ref name="Stein1996" />
{{cite journal
| last = Lane
| first = DJ
|author2=Pace B |author3=Olsen GJ |author4=Stahl DA |author5=Sogin ML |author6=Pace NR
| year = 1985
| title = Rapid determination of 16S ribosomal RNA sequences for phylogenetic analyses
| journal = [[Proceedings of the National Academy of Sciences]]
| volume = 82
| pages = 6955–9
| doi = 10.1073/pnas.82.20.6955
| pmid = 2413450
| issue = 20
| pmc = 391288|bibcode = 1985PNAS...82.6955L }}</ref> Với những kết quả của nghiên cứu này, vào năm 1985 Pace đã đề xuất ý tưởng nhân dòng DNA trực tiếp từ môi trường.<ref name="Pace1985">
{{cite journal
| last = Pace
| first = NR
|author2=DA Stahl |author3=DJ Lane |author4=GJ Olsen
| year = 1985
| title = Analyzing natural microbial populations by rRNA sequences
| journal = ASM News
| volume = 51
| pages = 4–12
| url=http://md1.csa.com/partners/viewrecord.php?requester=gs&collection=ENV&recid=913954&q=Analyzing+natural+microbial+populations+by+rRNA+sequences&uid=790164755&setcookie=yes }}</ref> Tới năm 1991 ông và cộng sự tại Khoa Sinh học, trường đại học Indiana đã có báo cáo đầu tiên về nhân dòng một lượng lớn DNA từ môi trường. Nghiên cứu của họ đã khẳng định rằng không hề có lỗi trong quá trình thực hiện PCR và những loài mới trong quần xã vi sinh vật là thực sự tồn tại. Mặc dù chỉ thực hiện với đoạn trình tự bảo thủ và không mã hóa, công trình trên đã chứng minh và giải thích tại sao các nghiên cứu về đa dạng sinh học trước đây bằng phương pháp hình thái học thường mang lại nhiều kết quả hơn so với phương pháp phân tích qua phân lập và nuôi cấy. Ngay sau đó, vào năm 1995 Healy đã công bố kết quả phân lập metagenomic của các gen chức năng trong "thư viện động vật" xây dựng từ hệ sinh vật tự nhiên trên cỏ khô trong phòng thí nghiệm.<ref name="Healy1995">
{{cite journal
| last = Healy
| first = FG
|author2=RM Ray |author3=HC Aldrich |author4=AC Wilkie |author5=LO Ingram |author6=KT Shanmugam
| year = 1995
| title = Direct isolation of functional genes encoding cellulases from the microbial consortia in a thermophilic, anaerobic digester maintained on lignocellulose
| journal = Appl. Microbiol Biotechnol.
| volume = 43
| pages = 667–74
| doi = 10.1007/BF00164771
| pmid = 7546604
| issue = 4}}</ref> Sau khi rời phòng thí nghiệm của Pace, [[Edward DeLong]]  tiếp tục nghiên cứu về lĩnh vực này và đã xuất bản công trình làm nền móng cho phân loại sinh vật môi trường dựa trên trình tự 16S, đó là thành lập thư viện trình tự của các mẫu lấy từ biển.<ref name="Stein1996">
{{cite journal
| last = Stein
| first = JL
|author2=TL Marsh |author3=KY Wu |author4=H Shizuya |author5=EF DeLong
| year = 1996
| title = Characterization of uncultivated prokaryotes: isolation and analysis of a 40-kilobase-pair genome fragment from a planktonic marine archaeon
| journal = Journal of Bacteriology
| volume = 178
| issue = 3
| pages = 591–599
| pmid=8550487
| pmc = 177699}}
</ref>
 
Vào năm 2002, Mya Breitbart, Forest Rohwer và các cộng sự đã sử dụng phương pháp shotgun sequencing để chứng minh rằng trong 200 lít nước biển có chứa trên 5000 loài virus khác nhau.<ref name="Breitbart2002"/> Nghiên cứu sau đó đã tìm ra khoảng hơn 1000 loài virus trong phân người và khoảng 1 triệu virus trong mỗi kilogam trầm tích biển, trong đó có rất nhiều thể thực khuẩn. Năm 2004 Gene Tyson, Jill Banfield và cộng sự tại trường đại học California, Berkeley và Joint Genome Institute đã giải mã DNA từ mẫu môi trường bị axit hóa do khai khoáng ([[acid mine drainage]], AMD).<ref name="Tyson2004"/> Nghiên cứu đã tìm ra một số nhóm vi khuẩn và vi khuẩn cổ mà trước đó chưa thể phân lập được.<ref name="Hugenholz2002"/>
{{cite journal
| last = Breitbart
| first = M
|author2=Salamon P |author3=Andresen B |author4=Mahaffy JM |author5=Segall AM |author6=Mead D |author7=Azam F |author8=Rohwer F
| year = 2002
| title = Genomic analysis of uncultured marine viral communities
| journal = Proceedings of the National Academy of Sciences of the United States of America
| volume = 99
| pages = 14250–14255
| doi = 10.1073/pnas.202488399
| pmid = 12384570
| issue = 22
| pmc = 137870|bibcode = 2002PNAS...9914250B }}</ref> Nghiên cứu sau đó đã tìm ra khoảng hơn 1000 loài virus trong phân người và khoảng 1 triệu virus trong mỗi kilogam trầm tích biển, trong đó có rất nhiều thể thực khuẩn. Năm 2004 Gene Tyson, Jill Banfield và cộng sự tại trường đại học California, Berkeley và Joint Genome Institute đã giải mã DNA từ mẫu môi trường bị axit hóa do khai khoáng ([[acid mine drainage]], AMD).<ref name="Tyson2004"/> Nghiên cứu đã tìm ra một số nhóm vi khuẩn và vi khuẩn cổ mà trước đó chưa thể phân lập được.<ref name="Hugenholz2002">
{{cite journal
| last = Hugenholz
| first = P
| year = 2002
| title = Exploring prokaryotic diversity in the genomic era
| journal = Genome Biology
| volume = 3
| pages = 1–8
| doi = 10.1186/gb-2002-3-2-reviews0003
| pmid=11864374
| pmc=139013
| issue = 2}}</ref>
 
Năm 2005, Stephan C. Schuster ở trường đại học Penn State University và các cộng sự đã công bố những trình tự đầu tiên giải bằng phương pháp hiện đại (kỹ thuật Pyrosequencing phát triển bởi 454 Life Sciences).<ref name="Poinar2005" /> Năm 2006 Robert Edward, Forest Rohwer và cộng sự ở San Diego State University cũng đã công bố thêm một công trình thuộc lĩnh vực này.<ref name="Edwards2006" />
{{Cite journal
| volume = 311
| pages = 392–394
| last = Poinar
| first = HN
| coauthors = Schwarz, C, Qi, J, Shapiro, B, Macphee, RD, Buigues, B, Tikhonov, A, Huson, D, Tomsho, LP, Auch, A, Rampp, M, Miller, W, and Schuster, SC
| title = Metagenomics to Paleogenomics: Large-Scale Sequencing of Mammoth DNA
| journal = Science
| url =http://www.sciencemag.org/content/311/5759/392
| doi=10.1126/science.1123360
| year = 2006
| issue = 5759
|bibcode = 2006Sci...311..392P | pmid = 16368896
}}
</ref> Năm 2006 Robert Edward, Forest Rohwer và cộng sự ở San Diego State University cũng đã công bố thêm một công trình thuộc lĩnh vực này.<ref name="Edwards2006">
{{cite journal
| last = Edwards
| first = RA
|author2=Rodriguez-Brito B |author3=Wegley L |author4=Haynes M |author5=Breitbart M |author6=Peterson DM |author7=Saar MO |author8=Alexander S |author9=Alexander EC |author10=Rohwer F
| year = 2006
| title = Using pyrosequencing to shed light on deep mine microbial ecology
| journal = BMC Genomics
| volume = 7
| page = 57
| doi = 10.1186/1471-2164-7-57
| pmid = 16549033
| pmc = 1483832}}</ref>
 
==Giải trình tự==
{{chính|DNA sequencing}}
 
Phục hồi các đoạn trình tự DNA lớn hơn vài nghìn bp từ mẫu là việc làm rất khó và chỉ có thể thực hiện mới đây nhờ những tiến bộ trong kỹ thuật sinh học phân tử, cho phép ta thiết lập các thư viện nhiễm sắc thể nhân tạo của vi khuẩn (bacterial artificial chromosomes, BACs), tạo vector phục vụ cho việc nhân dòng.<ref name="Beja2000"/>
{{cite journal
| doi = 10.1046/j.1462-2920.2000.00133.x
| last1 = Beja
| first1 = O.
| last2 = Suzuki
| year = 2000
| first2 = MT
| last3 = Koonin
| first3 = EV
| last4 = Aravind
| first4 = L
| last5 = Hadd
| first5 = A
| last6 = Nguyen
| first6 = LP
| last7 = Villacorta
| first7 = R
| last8 = Amjadi
| first8 = M
| last9 = Garrigues
| first9 = C
| title = Construction and analysis of bacterial artificial chromosome libraries from a marine microbial assemblage
| url =
| journal = Environmental Microbiology
| volume = 2
| issue = 5| pages = 516–29
| pmid = 11233160
}}
</ref>
[[Tập tin:Environmental shotgun sequencing.png|thumb|250px|Giải trình tự shotgun từ môi trường (Environmental Shotgun Sequencing, ESS). (A) Thu mẫu từ môi trường; (B) sàng lọc mẫu theo kích cỡ; (C) phân tích và phân lập DNA; (D) nhân dòng và lập thư viện; (E) giải trình tự các dòng (clones); (F) ghép nối trình tự (sequence assembly) để tạo thành các contig và scaffold.]]
 
===Shotgun metagenomic===
Nhờ các tiến bộ trong ngành tin sinh học, trong khuếch đại DNA và sự phát triển của công nghệ tính toán mà ta có thể phân tích các đoạn trình tự DNA từ các mẫu môi trường và ứng dụng giải trình tự shotgun cho các mẫu metagenomic. Có thể kể đến một số kết quả giải trình tự của vi sinh vật và của hệ gen người, ghép nối các đoạn DNA ngẫu nhiên ngắn thành các đoạn trình tự consensus. Giải trình tự shotgun và sàng lọc thư viện dòng cho biết các gen tồn tại trong mẫu môi trường. Nhờ vậy mà ta sẽ biết được loại sinh vật nào hay quá trình trao đổi chất nào đang diễn ra trong quần xã <ref name="segata2013" />, từ đó có thể hiểu rõ hơn về sinh thái học và so sánh các mẫu môi trường với nhau.<ref name="Allen2005" />
{{Cite journal
| doi = 10.1038/msb.2013.22
| volume = 9
| issue = 666
| last = Nicola
| first = Segata
|author2=Daniela Boernigen |author3=Timothy L Tickle |author4=Xochitl C Morgan |author5=Wendy S Garrett |author6=Curtis Huttenhower
| title = Computational meta’omics for microbial community studies
| journal = Molecular Systems Biology
| year = 2013
| pmid = 23670539
| url = http://www.nature.com/msb/journal/v9/n1/full/msb201322.html | pages=666
}}
</ref>, từ đó có thể hiểu rõ hơn về sinh thái học và so sánh các mẫu môi trường với nhau.<ref name="Allen2005" />
 
Bên cạnh đó có thể dùng Shotgun metagenomic để giải trình tự gần như hoàn toàn hệ gen của vi sinh vật trực tiếp từ môi trường.<ref name="Tyson2004" /> Phân tích DNA của một mẫu thường cho kết quả là dữ liệu DNA của vi sinh vật có nhiều nhất trong mẫu. Để có được cái nhìn toàn diện hơn ta cần tìm cách giải trình tự bộ gen của các thành viên khác trong quần xã bằng cách phân tích một lượng mẫu lớn. Với giải trình tự shotgun ngẫu nhiên ta có thể phát hiện được các thành viên này ngay chỉ với các đoạn trình tự vô cùng nhỏ bé.<ref name="Tyson2004" /> 
 
===Giải trình tự hiện đại (High-throughput sequencing)===
Những nghiên cứu metagenomic giải trình tự hiện đại đầu tiên đều được thực hiện bằng phương pháp 454 Pyrosequencing.<ref name="Poinar2005" /> Các kỹ thuật tiếp theo được ứng dụng là Giải trình tự Ion Torrent PGM, Phân tích genome Illumina và Hệ thống SOLiD.<ref name="rodrigue2010">{{cite doi |10.1371/journal.pone.0011840}}</ref> Bằng những kỹ thuật này ta chỉ đạt được các đoạn trình tự ngắn hơn so với phương pháp giải trình tự Sanger: các reads với IonTorrent PGM và 454 Pyrosequencing thường có độ dài khoảng 400 bp, với Illumina và SOLiD dài 25-75 bp <ref name="schuster2008">{{cite doi |10.1038/nmeth1156}}</ref>, trong khi đó với phương pháp Sanger ta có các reads với độ dài khoảng 750 bp. Tuy vậy, để bù lại điều này, các phương pháp mới cho số lượng reads nhiều hơn hẳn so với phương pháp Sanger truyền thống: Pyrosequencing cho 200-500 megabases, Illumina cho khoảng 20-50 gigabase metagenome.<ref name="nmeth2009">{{cite doi|10.1038/nmeth0909-623}}</ref> Một ưu điểm nữa của giải trình tự đoạn ngắn (short-read) là các phương pháp này không đòi hỏi phải nhân dòng trước khi giải trình tự, vì vậy có thể duy trì được tính đa dạng của mẫu phân tích. 
 
==Tin sinh học - Bioinformatics==
 
Dữ liệu của metagenomics thường rất lớn và tương đối nhiễu, vì nó chứa các mảnh dữ liệu của hàng chục ngàn loài sinh vật trong quần xã.<ref name="wooley2010" /> Khi giải trình tự metagenome của dạ cỏ bò người ta đạt được dữ liệu chứa 279 gigabase (279 tỉ bp), và hệ quần xã ở ruột người có chứa các gen khoảng 3,3 triệu bp (sau khi đã ghép nối từ 567,7 gigabase dữ liệu).<ref name="qin2011" /> Chính vì thế việc thu thập và xử lý các dữ liệu này đã từ lâu trở thành thách thức không nhỏ cho các nhà nghiên cứu.<ref name="segata2013" /><ref name="committee2007" /> 
{{Cite doi
| 10.1371/journal.pcbi.1000667
| volume = 6
| issue = 2
| pages = e1000667
| last = Wooley
| first = John C.
| coauthors = Adam Godzik, Iddo Friedberg
| title = A Primer on Metagenomics
| journal = PLoS Comput Biol
| accessdate = 12 December 2011
| date = 26 February 2010
| url = http://dx.doi.org/10.1371/journal.pcbi.1000667
}}
</ref> Khi giải trình tự metagenome của dạ cỏ bò người ta đạt được dữ liệu chứa 279 gigabase (279 tỉ bp), và hệ quần xã ở ruột người có chứa các gen khoảng 3,3 triệu bp (sau khi đã ghép nối từ 567,7 gigabase dữ liệu).<ref name="qin2011">
{{Cite journal
| issn = 0028-0836
| volume = 464
| issue = 7285
| pages = 59–65
| last = Qin
| first = Junjie
| coauthors = Ruiqiang Li, Jeroen Raes, Manimozhiyan Arumugam, Kristoffer Solvsten Burgdorf, Chaysavanh Manichanh, Trine Nielsen, Nicolas Pons, Florence Levenez, Takuji Yamada, Daniel R. Mende, Junhua Li, Junming Xu, Shaochuan Li, Dongfang Li, Jianjun Cao, Bo Wang, Huiqing Liang, Huisong Zheng, Yinlong Xie, Julien Tap, Patricia Lepage, Marcelo Bertalan, Jean-Michel Batto, Torben Hansen, Denis Le Paslier, Allan Linneberg, H. Bjorn Nielsen, Eric Pelletier, Pierre Renault, Thomas Sicheritz-Ponten, Keith Turner, Hongmei Zhu, Chang Yu, Shengting Li, Min Jian, Yan Zhou, Yingrui Li, Xiuqing Zhang, Songgang Li, Nan Qin, Huanming Yang, Jian Wang, Soren Brunak, Joel Dore, Francisco Guarner, Karsten Kristiansen, Oluf Pedersen, Julian Parkhill, Jean Weissenbach, Peer Bork, S. Dusko Ehrlich, Jun Wang
| title = A human gut microbial gene catalogue established by metagenomic sequencing
| journal = Nature
| date = 4 March 2010
| doi = 10.1038/nature08821
| pmid=20203603
|bibcode = 2010Natur.464...59.
| pmc=3779803}}{{subscription required}}</ref> Chính vì thế việc thu thập và xử lý các dữ liệu này đã từ lâu trở thành thách thức không nhỏ cho các nhà nghiên cứu.<ref name="segata2013"/><ref name="committee2007">
{{Cite book
| publisher = The National Academies Press
| isbn = 0-309-10676-1
| last = Committee on Metagenomics: Challenges and Functional Applications, National Research Council
| title = The New Science of Metagenomics: Revealing the Secrets of Our Microbial Planet
| location = Washington, D.C.
| year = 2007
| url = http://www.nap.edu/catalog/11902.html
}}
</ref> 
 
===Bước đầu sàng lọc trình tự===
Hàng 78 ⟶ 283:
{{chính|Sequence assembly}}
 
Có thể nói dữ liệu DNA từ metagenomic và từ genomic tương tự nhau, nhưng dữ liệu của các trình tự genomic cho tỉ lệ coverage cao trong khi dữ liệu metagenomic thường rất ít khi dư thừa.<ref name="committee2007" /> Hơn nữa với sự phát triển của công nghệ giải trình tự thế hệ mới (với kết quả dưới dạng các short-read) thì việc bị lỗi trong xử lý dữ liệu là điều rất dễ mắc phải. Như vậy việc ghép nối các đoạn trình tự của metagenomic thành các hệ gen sẽ rất rắc rối và khó tin cậy, đặc biệt khi lắp ghép các đoạn DNA lặp hay khi ghép các đoạn trình tự của các loài khác nhau thành một contig.<ref name="koonin2008" />
 
Phrap hay Celera Assembler là một số chương trình chỉ phục vụ cho ghép trình tự genomic, nghĩa là giải trình tự của một bộ gen riêng biệt, chứ không hiệu quả cho metagenomic.<ref name="wooley2010" /> Một số chương trình khác như Velvet assembler đã được thiết kế tối ưu để lắp ghép các short-read nhờ sử dụng Bruijn graphs. 
===Dự đoán gen===
{{chính|Gene prediction}}
 
Dự đoán gen của phân tích metagenomic sử dụng hai hướng tiếp cận trong việc chú thích (annotation) vùng mã hóa trong các contig đã được ghép nối trước đó.<ref name="koonin2008" /> Hướng tiếp cận đầu tiên để phát hiện gen dựa trên sự tương đồng với các trình tự trong ngân hàng gen, thông thường bằng cách tìm kiếm BLAST. Hướng tiếp cận thứ hai là ''ab initio'', dựa trên những đặc điểm bên trong mỗi đoạn trình tự để dự đoán vùng mã hóa dựa trên đơn vị gen đã biết của những sinh vật họ hàng. Có thể kể đến một số chương trình như MEGAN4 <ref name="MEGAN2011" />
{{Cite phụcjournal
| vụvolume cho= hướng21
| thứpages nhất= 1552–1560
| cáclast GeneMark<ref name="Zhu2010" />Huson
| first GLIMMER= phụcDaniel vụH
| chocoauthors hướng thứ= haiS. ƯuMitra, điểmN. đầu tiên của dự đoán ''ab initio'' là nó cho phép dò các vùng mã hóa không có homolog tương đồng trên ngân hàng dữ liệuWeber, tuyH. nhiênRuscheweyh đểand phươngStephan pháp này thật chính xác thì cần có những đoạn DNA đủ lớn để so sánhC.<ref name="wooley2010" />  Schuster
| title = Integrative analysis of environmental sequences using MEGAN4
| journal = Genome Research
| url = http://genome.cshlp.org/content/21/9/1552.full
| date = June 2011
| issue=9
| doi = 10.1101/gr.120618.111
| pmid = 21690186
| pmc = 3166839
}}
</ref> phục vụ cho hướng thứ nhất và các GeneMark<ref name="Zhu2010">
{{Cite journal
| doi = 10.1093/nar/gkq275
| volume = 38
| issue = 12
| pages = e132
| last = Zhu
| first = Wenhan
| coauthors = Lomsadze Alex and Borodovsky Mark
| title = Ab initio gene identification in metagenomic sequences
| journal = Nucleic Acids Research
| year = 2010
| pmid = 20403810
| pmc = 2896542
}}
</ref> và GLIMMER phục vụ cho hướng thứ hai. Ưu điểm đầu tiên của dự đoán ''ab initio'' là nó cho phép dò các vùng mã hóa không có homolog tương đồng trên ngân hàng dữ liệu, tuy nhiên để phương pháp này thật chính xác thì cần có những đoạn DNA đủ lớn để so sánh.<ref name="wooley2010"/>  
 
===Đa dạng loài===
{{chính|Species diversity}}
 
Việc chú thích gen giúp trả lời cho câu hỏi "cái gì", trong khi việc xác định độ đa dạng loài giúp trả lời cho câu hỏi "ai".<ref name="konopka2008">{{cite doi |10.1038/ismej.2009.88}}</ref> Để xác định cấu trúc và chức năng của quần xã trong metagenomes, các đoạn trình tự phải được cố định hóa. Việc cố định này được hiểu là quá trình gắn một đoạn trình tự với một sinh vật cụ thể.<ref name="koonin2008" /> Cố định hóa dựa trên sự tương đồng bao gồm các phương pháp như BLAST, được sử dụng để tìm kiếm marker hoặc các đoạn trình tự tương tự trong những dữ liệu có sẵn đã công bố. Theo cách này có thể sử dụng chương trình MEGAN.<ref name="MEGAN2007" />
{{Cite Mộtjournal
| côngvolume cụ= nữa17
| đểpages cố= định377–386
| hóalast các reads là PhymmBL.<ref name="wooley2010" />Huson
| Cốfirst định hóa dựa trên thành phần tập trung vào đặc tính của các đoạn trình tự, như tần số của các oligonucleotide hoặc codon biểu hiện (codon usage bias).<ref name="wooley2010" /> Sau khi phân nhóm các đoạn trình tự có thể phân tích so sánh độ đa dạng và phong phú của chúng nhờ một số chương trình khác, vd. như Unifrac.Daniel   H
|author2=A. Auch |author3=Ji Qi |author4=Stephan C Schuster
| title = MEGAN Analysis of Metagenomic Data
| journal = Genome Research
| url = http://genome.cshlp.org/content/17/3/377.long
| date = January 2007
| pmid = 17255551
| doi = 10.1101/gr.5969107
| issue = 3
| pmc = 1800929
}}
</ref> Một công cụ nữa để cố định hóa các reads là PhymmBL.<ref name="wooley2010"/> Cố định hóa dựa trên thành phần tập trung vào đặc tính của các đoạn trình tự, như tần số của các oligonucleotide hoặc codon biểu hiện (codon usage bias).<ref name="wooley2010"/> Sau khi phân nhóm các đoạn trình tự có thể phân tích so sánh độ đa dạng và phong phú của chúng nhờ một số chương trình khác, vd. như Unifrac.   
 
== Xem thêm ==