摘要:2020年2月3日,內(nèi)蒙古農(nóng)業(yè)大學(xué)食品科學(xué)與工程學(xué)院駱駝團(tuán)隊(duì)和內(nèi)蒙古駱駝研究院聯(lián)合,以吉日木圖教授為通信作者,在Molecular Ecology Resources在線發(fā)表了題為Chromosome-level assembly of wild Bac
2020年2月3日,內(nèi)蒙古農(nóng)業(yè)大學(xué)食品科學(xué)與工程學(xué)院駱駝團(tuán)隊(duì)和內(nèi)蒙古駱駝研究院聯(lián)合,以吉日木圖教授為通信作者,在Molecular Ecology Resources在線發(fā)表了題為“Chromosome-level assembly of wild Bactrian camel genome reveals organization of immune gene loci”的研究論文。該研究利用二代、三代及Hi-C輔助組裝相結(jié)合的測(cè)序策略,組裝獲得了連續(xù)性好、準(zhǔn)確度高的染色體水平的野生雙峰駝基因組精細(xì)圖譜,并基于組裝的參考基因組,對(duì)駱駝科動(dòng)物中免疫相關(guān)基因位點(diǎn)的結(jié)構(gòu)進(jìn)行了深入分析。 研究背景 駱駝科動(dòng)物是目前能夠產(chǎn)生重鏈免疫球蛋白(IGs)的哺乳動(dòng)物。重鏈抗體分子量小,在水溶液中穩(wěn)定、可溶,對(duì)部分抗原具有高親和力,是許多生物醫(yī)學(xué)應(yīng)用的理想工具。近來(lái)發(fā)現(xiàn),重排后的TRDV和TRGV基因中頻繁發(fā)生的體細(xì)胞超突變會(huì)增加駱駝科動(dòng)物(單峰駝)中T細(xì)胞受體(TCR)的多樣性。值得注意的是,在哺乳動(dòng)物中,通常只有IGs位點(diǎn)會(huì)存在體細(xì)胞超突變現(xiàn)象,在TCR中較少出現(xiàn)。并且,雖然TCR V基因的體細(xì)胞超突變?cè)黾恿薚CR的多樣性,但調(diào)控抗原產(chǎn)生的部分MHC基因在Old World camles中的遺傳多樣性卻遠(yuǎn)低于預(yù)期。一個(gè)完整、連續(xù)、準(zhǔn)確的參考基因組對(duì)于探究免疫系統(tǒng)的分子作用機(jī)制及多樣性至關(guān)重要。但現(xiàn)有已發(fā)表的駱駝科動(dòng)物的基因組草圖多基于短讀長(zhǎng)組裝,其連續(xù)性和完整度有限。而多數(shù)免疫基因位點(diǎn)重復(fù)性高、序列長(zhǎng),基因注釋過(guò)程中會(huì)產(chǎn)生較多片段,在一定程度上限制了后續(xù)研究。
(駝可汗內(nèi)蒙古駱駝奶招商加盟代理) 主要研究結(jié)果 基因組組裝及質(zhì)量評(píng)估 該研究以野生雙峰駝為研究材料,利用PacBio測(cè)序獲得了125.56 Gb subreads,其中N50 12.82 Kb,拼接獲得了4,402條Contigs,最終組裝了大小2.09 Gb的野生雙峰駝基因組,其中,Contig N50 5.37 Mb,Scaffolds N50 76.03 Mb。BUSCO評(píng)估高達(dá)95.6%,基因組完整性良好。隨后,研究人員以雌性野生雙峰駝為材料,構(gòu)建了Hi-C數(shù)據(jù)庫(kù),借助LACHESIS對(duì)基因組草圖序列進(jìn)行聚類、排序和定向。最終,將2,382條Contigs掛載到了37條染色體上,掛載率96.5%。對(duì)基因組覆蓋度評(píng)估發(fā)現(xiàn),組裝基因組的各項(xiàng)指標(biāo)均優(yōu)于已發(fā)表駱駝基因組(CB1和MBC1),基因組的連續(xù)性得到了大幅提高,并且沒(méi)有引入過(guò)多的拼接錯(cuò)誤,可用于后續(xù)分析。 圖1 野生雙峰駝染色體水平的組裝結(jié)果 免疫球蛋白基因位點(diǎn) 重鏈免疫球蛋白由IGH編碼產(chǎn)生,目前為止,僅在羊駝基因組中解析獲得了IGH基因位點(diǎn)。該研究利用不同物種的IGH序列,借助復(fù)雜的生信流程對(duì)組裝的雙峰駝基因組中的IGH基因進(jìn)行分析,發(fā)現(xiàn)雙峰駝基因組中的IGHD、IGHJ、IGHC和IGHV基因聚集在6號(hào)染色體一端的基因位點(diǎn)上(圖2a)。其中,IGHD-J簇和除IGHG3外的大多數(shù)IGHC基因共定位在一個(gè)Contig上,且其基因數(shù)量和序列與羊駝相似。
(駝可汗內(nèi)蒙古駱駝奶招商加盟代理) 值得注意的是,有3個(gè)IGHC基因(IGHG2A/2C和IGHG3)一個(gè)外顯子的供體剪接位點(diǎn)側(cè)翼處的GT至AT突變使得其能夠編碼重鏈抗體,但I(xiàn)GHG3基因并未與其他IGHC基因成簇,而是位于組裝基因組的另一個(gè)Contig中(圖2a)。V區(qū)在野生雙峰駝和羊駝之間的序列保守性較低,可能是物種分化過(guò)程中抗原結(jié)合位點(diǎn)發(fā)生了快速進(jìn)化。雙峰駝中的17個(gè)IGHV基因中有4個(gè)基因其中一個(gè)閱讀框中的四個(gè)氨基酸(V42Y/F、G49E、L50R/C、W52F/G/L)能夠發(fā)生替換,使得IGHV基因具有即可編碼重鏈抗體又可編碼常規(guī)抗體能力,即混合的(intermixed)IGHVs基因組成是野生雙峰駝能夠同時(shí)能夠產(chǎn)生重鏈抗體和常規(guī)抗體的主要原因。 圖2 免疫球蛋白位點(diǎn)的基因結(jié)構(gòu) TCR基因位點(diǎn) 體細(xì)胞超突變是駱駝科動(dòng)物(單峰駝)TRG和TRD可變域內(nèi)多樣性產(chǎn)生的主要原因,這是駱駝科動(dòng)物免疫系統(tǒng)的特點(diǎn)。但體細(xì)胞超突變通常發(fā)生在哺乳動(dòng)物的B細(xì)胞中,T細(xì)胞中幾乎不存在。在雙峰駝中,也僅在7號(hào)染色體上發(fā)現(xiàn)了兩個(gè)長(zhǎng)度跨越45kb左右TRG cassette,每個(gè)cassette均由一個(gè)TRGV基因,一個(gè)TRGJ基因和一個(gè)TGRC基因組成(圖43a)。雖然上游還有另外一個(gè)cassette,但它更像是帶有TRGC的假基因。 對(duì)于TRD位點(diǎn)而言,其基因數(shù)雖較少,但由于與TRA共定位,基因結(jié)構(gòu)較復(fù)雜。研究人員在6號(hào)染色體的一個(gè)Contig中找到了TRA和TRD位點(diǎn)的完整區(qū)域(圖3b),發(fā)現(xiàn)TRDV-D-J轉(zhuǎn)座子嵌套在TRAV基因中,其中含有三個(gè)TRDV亞組(TRDV1,TRDV2和TRDV3),七個(gè)TRDD基因和四個(gè)TRDJ基因。 此外,組裝基因組中雖還存在大量的TRAV和TRBV基因,但由于體細(xì)胞超突變不適用于TRA和TRB,因此認(rèn)為生殖譜系(germline pools)可能是多樣性產(chǎn)生的主要來(lái)源。TRA位點(diǎn)全長(zhǎng)約為600 kb,包含27個(gè)TRAV功能基因,54個(gè)TRAJ功能基因和一個(gè)TRAC基因(圖3b)。位于7號(hào)染色體上TRB位點(diǎn)長(zhǎng)度超過(guò)300 Kb,其中有35個(gè)TRBV功能基因分布在五個(gè)連續(xù)的Contigs上(圖3c)。
(駝可汗內(nèi)蒙古駱駝奶招商加盟代理) 圖3 TRC位點(diǎn)的基因結(jié)構(gòu) 傳統(tǒng)的MHC區(qū)域 MHC區(qū)域是基因組中基因密度頗大、多態(tài)性較強(qiáng)的區(qū)域之一,組裝難度較大。由于駱駝基因組中MHC遺傳多樣性極低,目前只有一小部分Class I和Class II基因被鑒定出來(lái)。在雙峰駝中,MHC區(qū)域分布于20號(hào)染色體的一個(gè)Contig中,其核心亞區(qū)I、III、II長(zhǎng)度跨越約2.5 Mb左右(圖4)。除II亞區(qū)外,雙峰駝的MHC結(jié)構(gòu)與??傮w相似(牛的II亞區(qū)被較大的物理距離分開(kāi),而駱駝中該區(qū)域在相對(duì)較近),這暗示著該區(qū)域的結(jié)構(gòu)變異可能發(fā)生在駱駝科動(dòng)物和其他反芻動(dòng)物發(fā)生分歧之后。研究人員在500 Kb區(qū)域內(nèi)鑒定到了兩個(gè)分離的I類MHC簇(圖4),其中有10個(gè)MHC I類基因和類I基因,包括已發(fā)表的基因組中提到的那些基因(B-67-like,BL-3-7-like和MICA-like)。II區(qū)主要由嗜乳脂蛋白(butyrophilin)和II類MHC基因組成(圖5)。
(駝可汗內(nèi)蒙古駱駝奶招商加盟代理) III區(qū)則是與免疫相關(guān)的各種基因簇,如淋巴細(xì)胞抗原、補(bǔ)體因子和腫瘤壞死因子,其中大多數(shù)基因與牛是直系同源基因。在此過(guò)程中,研究人員還鑒定出了完整的傳統(tǒng)II類基因和其他類型的II基因,完善了MHC區(qū)的基因圖譜。 圖4 野生雙峰駝和牛的經(jīng)典MHC區(qū)域比對(duì)圖 文章總結(jié) 駱駝科動(dòng)物是目前能夠產(chǎn)生重鏈免疫球蛋白(IGs)的哺乳動(dòng)物,但其免疫基因位點(diǎn)的重復(fù)序列較多,使用短讀長(zhǎng)測(cè)序難以獲得準(zhǔn)確信息。該研究利用高深度的二代、三代測(cè)序,結(jié)合Hi-C輔助組裝技術(shù),組裝獲得了連續(xù)性好、準(zhǔn)確度高的染色體水平的野生雙峰駝基因組。將所有的IG和TCR位點(diǎn)都定位到了特定的染色體上,且其中大多數(shù)(IGK/IGL/TRG/TRA/TRD)和經(jīng)典的MHC基因位點(diǎn)都被準(zhǔn)確定位到了沒(méi)有g(shù)ap的Contig中。盡管雙峰駝的V基因表現(xiàn)出了較大的變異性,但這些位點(diǎn)的基因組結(jié)構(gòu)在駱駝科動(dòng)物中是保守的。對(duì)于IGHV和TRBV簇中仍存在的缺口,后續(xù)可通過(guò)靶向擴(kuò)增子測(cè)序以獲得更完整的野生雙峰駝種系庫(kù)。 參考文獻(xiàn):Ming L, Wang Z, Yi L, et al. Chromosome-level assembly of wild Bactrian camel genome reveals organization of immune gene loci. Molecular Ecology Resources, 2020. doi:10.1111/1755-0998.13141
原文出處: