三代+光學+HIC拯救復雜基因組—-大麥基因組Nature篇
?
新鮮出爐的消息,新版大麥基因組又發(fā)nature啦!
大麥基因組到底經(jīng)歷了怎樣的困局?到底是什么解救了大麥基因組?后續(xù)大麥基因組還會發(fā)Nature嗎?重復序列比例過高如何解決?新技術的到來更新基因組的必要性到底如何?
大麥基因組的困局:
大麥作為重要的經(jīng)濟作物,其在農(nóng)業(yè)上的重要性毋需本編過多描述。大麥基因組破解工作本處于第一梯隊,為何初版基因組在2012年才發(fā)布呢?原因就是大麥基因組的屬于高重復的復雜基因組,通過當前技術是無法很好解決的。雖然只有7條染色體,但是基因組的重復序列比例高達84%,同時基因組大小在5.1 Gb,相比于人,水稻等簡單基因組,技術上存在很大的難度。
和人類基因計劃一樣,通過集齊全世界科學家的努力,構建了大量的BAC文庫,得到了物理圖,同時基于遺傳圖譜,得到了初版基因組。雖然通過綜合各種技術,得到的了基因組序列在4Gb 左右,但其可靠性,準確性難以保障。就拿二代數(shù)據(jù)來說,當時只組裝出了1.9 Gb contig的序列,指標更是無從說起。雖然全世界科學家的努力不可否認也不容質疑,但現(xiàn)在看來,初版大麥基因組給人的感覺只能是有勝于無!
到底是什么解救了大麥基因組?
廢話不多說,看看人家的組裝結果(表1)。

文章中使用的技術手段包括BAC+Illumina+BioNano+HiC+Genetic Map,得到了4.79 Gb基因組序列,最終利用HIC和遺傳圖分別將95%和97%的序列掛到了染色體的水平。相比于初版基因組,組裝水平高了不只是一大截啊,這就是技術上的勝利!話說,基于此版基因組,預測出的基因編碼區(qū)至占到了整個基因組的1.4%,而轉座原件(重復序列的一個大類)卻占到了整個基因組的80.8%。所以說,大麥基因組的難度的確大啊!
請看文章中描述的組裝技術路線:
構建87085個BAC,利用Hiseq 進行PE及MP文庫測序得到4.5 Tb二代數(shù)據(jù),之后將每個BAC的測序數(shù)據(jù)分別進行組裝;
通過物理圖譜將BAC間的關系確定;
利用遺傳圖+光學圖譜,通過組裝好的BAC序列構建Superscaffold;
利用群體遺傳圖(POPSEQ)進行Superscaffold分組(97%分組);
利用HiC進行Superscafold排序及定向(95%掛載);
基因組評估+基因預測+后續(xù)分析。
文章中有哪些意思的點?(文章中都做了啥分析?)
1. 染色體間外大小臂之間的交互
通過HIC熱圖作者發(fā)現(xiàn)無論是染色體內部還是染色體間的長短臂之間都存在較強的交互信號。按照HIC的原理來說,染色體上空間作用越強則實際DNA間的物理距離越近,染色體大小臂及不同染色體間的相互作用應該是極弱的。為了找出原因,作者通過對大麥葉核間期的細胞進行著絲粒及端粒熒光雜交,發(fā)現(xiàn)所有染色體的端粒和著絲粒在空間上的位置都純在極性,且排列方式也極其相似,不同染色體間的大小臂其實在空間上距離很近,因此確實存在染色體內外大小臂之間大量的交互作用的可能。

染色體上重復序列及基因密度
利用染色體位置信息,通過對20-mer頻率將染色體進行劃分成了三種區(qū)域,每種區(qū)域上在基因密度,重組率,LTR插入時間以及GC含量上都存在一定的規(guī)律。


基因家族分析
通過對大麥基因組進行基因家族收縮擴張分析發(fā)現(xiàn),收縮擴張的家族中最顯著的部分都與植物防御及抗病相關。另外,作者對麥芽品質相關的amy家族及糖代謝相關的SWEET家族進行了亞家族分類,多倍化及表達模式相關的分析。

遺傳多樣性及單體型分析
基因組在分子遺傳育種中具有極其重要的作用,本文中作者對來自歐洲的冬季及春季小麥兩個群體進行了遺傳多樣性及單體型相關分析。最終發(fā)現(xiàn),這兩個群體在不同的染色體位置上的多樣性程度及連鎖強度都存在不同特點。如果沒有一個好的基因組,很難全面了解群體間的變異情況,會給功能育種上帶來困難。

大麥基因組還能發(fā)Nature嗎?重復序列比例過高如何解決?
雖然此版基因組已經(jīng)發(fā)表,但是本編覺得就目前的技術而言,大麥基因組還是有很大的提升空間。有咩有發(fā)現(xiàn),此版大麥基因組沒有使用當前主流基因組所使用的三代測序技術?雖然此版本基因組相較于第一版基因組提升較大,但是基因組裝的過于零碎仍舊是事實。畢竟此版基因組的contigN50才79Kb,而super scaffold N50也才1.9Mb。一旦過于零碎,肯定會導致許多基因無法被預測出,這將對后續(xù)基因組的功能解讀及研究增加困難。目前,三代測序技術在基因組完整性上能夠有很好的發(fā)揮,同時在基因組結構變異上也能夠有所保障。針對大麥基因組,已經(jīng)有了如此多的數(shù)據(jù),本編認為,如果后續(xù)如果再加入純三代測序數(shù)據(jù),contigN50達到Mb級別是極其輕松的!在這里可以和大家透露下,本編最近接觸到另一個高重復的物種(預測出的重復序列比例高達84%),通過純三代+HiC組裝,在組裝指標及完整性上都秒殺了此版本的大麥。所以大麥還會不會發(fā)Nature,大家都應該明白了!
A chromosome conformation capture ordered sequence of the barley genome