三代+光學(xué)+HIC拯救復(fù)雜基因組—-大麥基因組Nature篇
?
新鮮出爐的消息,新版大麥基因組又發(fā)nature啦!
大麥基因組到底經(jīng)歷了怎樣的困局?到底是什么解救了大麥基因組?后續(xù)大麥基因組還會(huì)發(fā)Nature嗎?重復(fù)序列比例過(guò)高如何解決?新技術(shù)的到來(lái)更新基因組的必要性到底如何?
大麥基因組的困局:
大麥作為重要的經(jīng)濟(jì)作物,其在農(nóng)業(yè)上的重要性毋需本編過(guò)多描述。大麥基因組破解工作本處于第一梯隊(duì),為何初版基因組在2012年才發(fā)布呢?原因就是大麥基因組的屬于高重復(fù)的復(fù)雜基因組,通過(guò)當(dāng)前技術(shù)是無(wú)法很好解決的。雖然只有7條染色體,但是基因組的重復(fù)序列比例高達(dá)84%,同時(shí)基因組大小在5.1 Gb,相比于人,水稻等簡(jiǎn)單基因組,技術(shù)上存在很大的難度。
和人類(lèi)基因計(jì)劃一樣,通過(guò)集齊全世界科學(xué)家的努力,構(gòu)建了大量的BAC文庫(kù),得到了物理圖,同時(shí)基于遺傳圖譜,得到了初版基因組。雖然通過(guò)綜合各種技術(shù),得到的了基因組序列在4Gb 左右,但其可靠性,準(zhǔn)確性難以保障。就拿二代數(shù)據(jù)來(lái)說(shuō),當(dāng)時(shí)只組裝出了1.9 Gb contig的序列,指標(biāo)更是無(wú)從說(shuō)起。雖然全世界科學(xué)家的努力不可否認(rèn)也不容質(zhì)疑,但現(xiàn)在看來(lái),初版大麥基因組給人的感覺(jué)只能是有勝于無(wú)!
到底是什么解救了大麥基因組?
廢話(huà)不多說(shuō),看看人家的組裝結(jié)果(表1)。

文章中使用的技術(shù)手段包括BAC+Illumina+BioNano+HiC+Genetic Map,得到了4.79 Gb基因組序列,最終利用HIC和遺傳圖分別將95%和97%的序列掛到了染色體的水平。相比于初版基因組,組裝水平高了不只是一大截啊,這就是技術(shù)上的勝利!話(huà)說(shuō),基于此版基因組,預(yù)測(cè)出的基因編碼區(qū)至占到了整個(gè)基因組的1.4%,而轉(zhuǎn)座原件(重復(fù)序列的一個(gè)大類(lèi))卻占到了整個(gè)基因組的80.8%。所以說(shuō),大麥基因組的難度的確大?。?br>
請(qǐng)看文章中描述的組裝技術(shù)路線(xiàn):
構(gòu)建87085個(gè)BAC,利用Hiseq 進(jìn)行PE及MP文庫(kù)測(cè)序得到4.5 Tb二代數(shù)據(jù),之后將每個(gè)BAC的測(cè)序數(shù)據(jù)分別進(jìn)行組裝;
通過(guò)物理圖譜將BAC間的關(guān)系確定;
利用遺傳圖+光學(xué)圖譜,通過(guò)組裝好的BAC序列構(gòu)建Superscaffold;
利用群體遺傳圖(POPSEQ)進(jìn)行Superscaffold分組(97%分組);
利用HiC進(jìn)行Superscafold排序及定向(95%掛載);
基因組評(píng)估+基因預(yù)測(cè)+后續(xù)分析。
文章中有哪些意思的點(diǎn)?(文章中都做了啥分析?)
1. 染色體間外大小臂之間的交互
通過(guò)HIC熱圖作者發(fā)現(xiàn)無(wú)論是染色體內(nèi)部還是染色體間的長(zhǎng)短臂之間都存在較強(qiáng)的交互信號(hào)。按照HIC的原理來(lái)說(shuō),染色體上空間作用越強(qiáng)則實(shí)際DNA間的物理距離越近,染色體大小臂及不同染色體間的相互作用應(yīng)該是極弱的。為了找出原因,作者通過(guò)對(duì)大麥葉核間期的細(xì)胞進(jìn)行著絲粒及端粒熒光雜交,發(fā)現(xiàn)所有染色體的端粒和著絲粒在空間上的位置都純?cè)跇O性,且排列方式也極其相似,不同染色體間的大小臂其實(shí)在空間上距離很近,因此確實(shí)存在染色體內(nèi)外大小臂之間大量的交互作用的可能。

染色體上重復(fù)序列及基因密度
利用染色體位置信息,通過(guò)對(duì)20-mer頻率將染色體進(jìn)行劃分成了三種區(qū)域,每種區(qū)域上在基因密度,重組率,LTR插入時(shí)間以及GC含量上都存在一定的規(guī)律。


基因家族分析
通過(guò)對(duì)大麥基因組進(jìn)行基因家族收縮擴(kuò)張分析發(fā)現(xiàn),收縮擴(kuò)張的家族中最顯著的部分都與植物防御及抗病相關(guān)。另外,作者對(duì)麥芽品質(zhì)相關(guān)的amy家族及糖代謝相關(guān)的SWEET家族進(jìn)行了亞家族分類(lèi),多倍化及表達(dá)模式相關(guān)的分析。

遺傳多樣性及單體型分析
基因組在分子遺傳育種中具有極其重要的作用,本文中作者對(duì)來(lái)自歐洲的冬季及春季小麥兩個(gè)群體進(jìn)行了遺傳多樣性及單體型相關(guān)分析。最終發(fā)現(xiàn),這兩個(gè)群體在不同的染色體位置上的多樣性程度及連鎖強(qiáng)度都存在不同特點(diǎn)。如果沒(méi)有一個(gè)好的基因組,很難全面了解群體間的變異情況,會(huì)給功能育種上帶來(lái)困難。

大麥基因組還能發(fā)Nature嗎?重復(fù)序列比例過(guò)高如何解決?
雖然此版基因組已經(jīng)發(fā)表,但是本編覺(jué)得就目前的技術(shù)而言,大麥基因組還是有很大的提升空間。有咩有發(fā)現(xiàn),此版大麥基因組沒(méi)有使用當(dāng)前主流基因組所使用的三代測(cè)序技術(shù)?雖然此版本基因組相較于第一版基因組提升較大,但是基因組裝的過(guò)于零碎仍舊是事實(shí)。畢竟此版基因組的contigN50才79Kb,而super scaffold N50也才1.9Mb。一旦過(guò)于零碎,肯定會(huì)導(dǎo)致許多基因無(wú)法被預(yù)測(cè)出,這將對(duì)后續(xù)基因組的功能解讀及研究增加困難。目前,三代測(cè)序技術(shù)在基因組完整性上能夠有很好的發(fā)揮,同時(shí)在基因組結(jié)構(gòu)變異上也能夠有所保障。針對(duì)大麥基因組,已經(jīng)有了如此多的數(shù)據(jù),本編認(rèn)為,如果后續(xù)如果再加入純?nèi)鷾y(cè)序數(shù)據(jù),contigN50達(dá)到Mb級(jí)別是極其輕松的!在這里可以和大家透露下,本編最近接觸到另一個(gè)高重復(fù)的物種(預(yù)測(cè)出的重復(fù)序列比例高達(dá)84%),通過(guò)純?nèi)?HiC組裝,在組裝指標(biāo)及完整性上都秒殺了此版本的大麥。所以大麥還會(huì)不會(huì)發(fā)Nature,大家都應(yīng)該明白了!
A chromosome conformation capture ordered sequence of the barley genome