基因組注釋分析主要包括哪些內(nèi)容
基因組注釋包括以下方面的內(nèi)容:
(1) 重復(fù)序列的預(yù)測(cè)。通過(guò)比對(duì)已知的重復(fù)序列數(shù)據(jù)庫(kù),找出序列中包含的重復(fù)序列,識(shí)別類(lèi)型并轉(zhuǎn)化為N或者X,統(tǒng)計(jì)各種類(lèi)型重復(fù)序列的分布。
(2) 編碼基因的預(yù)測(cè)。通過(guò)將轉(zhuǎn)錄組或EST數(shù)據(jù)比對(duì)到拼接后的基因組序列上,找出編碼基因位置,預(yù)測(cè)編碼基因結(jié)構(gòu)。或者通過(guò)專(zhuān)業(yè)的外顯子預(yù)測(cè)軟件,預(yù)測(cè)編碼基因的外顯子結(jié)構(gòu)。
(3) 小RNA基因的預(yù)測(cè)。通過(guò)比對(duì)已知的小RNA的數(shù)據(jù)庫(kù),或者通過(guò)生物信息(bioinformation)學(xué)軟件預(yù)測(cè),找出這些小RNA基因,并進(jìn)行分類(lèi)。
(4) 調(diào)控序列和假基因的預(yù)測(cè)。
基因功能的注釋?zhuān)褂玫臄?shù)據(jù)庫(kù)包括NT/NR, SwissProt/TrEMbl, InterPro, KEGG, COG, Gene ontology等,使用比對(duì)的方法,如blast,找出同源相近的基因,并注釋功能。
111 開(kāi)發(fā)環(huán)境本系統(tǒng)基于PC 微機(jī),操作系統(tǒng)為L(zhǎng)inux。
測(cè)試系統(tǒng)為PIII 550 雙CPU 微機(jī),內(nèi)存1GB ,運(yùn)行RedHat 710 Linux 系統(tǒng)。數(shù)據(jù)庫(kù)管理系統(tǒng)使用MySQL ,Web 服務(wù)器程序使用Apache ,應(yīng)用程序接口用Perl 腳本語(yǔ)言編寫(xiě)。
本系統(tǒng)也可在單CPU 微機(jī)上運(yùn)行,內(nèi)存不小于512MB。所有系統(tǒng)軟件和應(yīng)用軟件均可以從Internet 網(wǎng)上免費(fèi)獲得。
112 測(cè)試數(shù)據(jù)本系統(tǒng)用藍(lán)細(xì)菌( Synechococcus sp. ) PCC7002 基因組初步拼接所得最大重疊連續(xù)群(Contig) 作測(cè)試數(shù)據(jù),共3 03247bp 。113 MGAP 的基因組注釋系統(tǒng)基因組注釋系統(tǒng)是MGAP 的核心,整合了許多常用的基因識(shí)別和蛋白質(zhì)功能預(yù)測(cè)軟件,包括GeneMarks、IPRsearch、BLASTPGP 和FASTA3 等,以及多個(gè)數(shù)據(jù)庫(kù),如非冗余蛋白質(zhì)序列數(shù)據(jù)庫(kù)(Non redundant , NR) 、已知三維空間結(jié)構(gòu)的蛋白質(zhì)序列數(shù)據(jù)庫(kù)(PDBSeq) 、國(guó)際蛋白質(zhì)資源信息系統(tǒng)( InterPro) [6] 和直系同源蛋白質(zhì)家族數(shù)據(jù)庫(kù)(Cluster of orthologousgroups ,COG) 等,編寫(xiě)了相應(yīng)的模塊進(jìn)行自動(dòng)操作,并把每一步注釋結(jié)果導(dǎo)入數(shù)據(jù)庫(kù)中。
MGAP 整合的一般模塊,可以被其他任何一種微生物基因組直接使用。不同實(shí)驗(yàn)室可根據(jù)實(shí)際研究需要,增加相應(yīng)模塊或數(shù)據(jù),如藍(lán)細(xì)菌Anabaena sp. strain PCC 7120 的蛋白質(zhì)序列庫(kù)等。
基因識(shí)別是MGAP 的第一步,本系統(tǒng)采用微生物基因組基因識(shí)別最為權(quán)威的Gene2Marks 軟件進(jìn)行基因預(yù)測(cè),通過(guò)http :PPopal .biology.gatech.. cgi 網(wǎng)站提交重疊連續(xù)群測(cè)試序列(3 03247bp) ,使用GeneMarks 缺省參數(shù),預(yù)測(cè)得到279 個(gè)基因。然后用MGAP 的數(shù)據(jù)加載模塊(Loaddata) 將預(yù)測(cè)結(jié)果導(dǎo)入ORF 表中。
114 MGAP 的用戶(hù)接口用戶(hù)接口用于展示注釋結(jié)果,提供易于操作和分析平臺(tái)。本系統(tǒng)用戶(hù)接口基于Web設(shè)計(jì)開(kāi)發(fā),用戶(hù)可通過(guò)瀏覽器訪問(wèn)基因組注釋系統(tǒng),包括基因組環(huán)狀圖展示、基因和ORF在染色體上分布圖,并對(duì)注釋信息進(jìn)行檢索。
基因組環(huán)狀基因分布圖構(gòu)建基于如下信息:預(yù)測(cè)所得基因的起始位置、長(zhǎng)度,編碼基因的正負(fù)鏈信息,以及預(yù)測(cè)的基因功能分類(lèi)。2 結(jié)果圖1 是MGAP 系統(tǒng)對(duì)PCC7002 基因組重疊連續(xù)群測(cè)試序列注釋結(jié)果。
A 為基因展示圖,B 為ORF 顯示頁(yè)面。A 中由外向內(nèi)依次為: (1) 正鏈編碼基因; (2) 負(fù)鏈編碼基因; (3)GC 含量統(tǒng)計(jì); (4) GC 偏離量統(tǒng)計(jì)。
該系統(tǒng)構(gòu)建的環(huán)狀基因組,可顯示正負(fù)鏈上的編碼基因,用相應(yīng)顏色表示功能類(lèi)別。本系統(tǒng)沿用經(jīng)典蛋白質(zhì)功能分類(lèi)方法[8] ,即把微生物基因組所有基因按功能分為16 大類(lèi),進(jìn)而細(xì)分為113 個(gè)子類(lèi)。
此外,還增加了統(tǒng)計(jì)GC 含量和GC 偏離量(GC Bias) 功能。計(jì)算GC 含量時(shí)以200bp 為滑動(dòng)窗口,計(jì)算GC 偏離量時(shí)以13kb 為滑動(dòng)窗口。
GC 偏離量表示G和C 含量的差別,定義為: (G2C)P(G+ C) [9] 。點(diǎn)擊A圖中環(huán)狀基因組展示圖,則可得到B 圖基因組局部ORF 顯示頁(yè)面。
點(diǎn)擊圖中某個(gè)ORF ,即可調(diào)出其所有注釋信息,包括該ORF 在基因組中的位置、長(zhǎng)度、正負(fù)鏈信息、核酸和蛋白序列,以及對(duì)NR 蛋白庫(kù)、COG數(shù)據(jù)庫(kù)、InterPro 、PDBseq 數(shù)據(jù)庫(kù)的搜索結(jié)果。所有結(jié)果都有相對(duì)應(yīng)的連接可以直接連到原始數(shù)據(jù)庫(kù)。
3 討論新基因組功能注釋是基因組研究的重要方面,MGAP 把注釋所用軟件和公共數(shù)據(jù)庫(kù)進(jìn)行有機(jī)集成,使注釋過(guò)程自動(dòng)進(jìn)行并把結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)系統(tǒng)中,最終提供友好的界面,可為中小實(shí)驗(yàn)室提供方便實(shí)用的微生物基因組注釋系統(tǒng),減少人工參與,提高注釋效率。該系統(tǒng)考慮到國(guó)內(nèi)一般中小實(shí)驗(yàn)室的實(shí)際情況,基于廉價(jià)的PC 微機(jī)和免費(fèi)Linux、MySQL 、Apache 和Perl 等軟件系統(tǒng)開(kāi)發(fā)。
必須指出,目前所有計(jì)算機(jī)注釋信息,均不能保證完全準(zhǔn)確。MGAP 在一定程度上依賴(lài)于現(xiàn)有數(shù)據(jù)庫(kù)中的注釋信息。
由于各種原因,這些注釋信息必然有一些錯(cuò)誤。顯然,這些錯(cuò)誤信息將不可避免地引入新的注釋系統(tǒng)。
為此,MGAP 綜合了多種注釋方法,并互為補(bǔ)充。例如,一個(gè)ORF 既有BLASTP從NR 數(shù)據(jù)庫(kù)搜索到的相似序列,又在InterPro 蛋白質(zhì)模體庫(kù)中找到相應(yīng)功能位點(diǎn),也可找到高分匹配的COGs ,那么該注釋結(jié)果就比較可靠。
此外,必要的人工注釋?zhuān)梢员苊饣蚣m正自動(dòng)注釋的錯(cuò)誤。例如,由于測(cè)序錯(cuò)誤產(chǎn)生的讀碼框移位或是缺失,會(huì)導(dǎo)致一個(gè)基因被拆分成兩段,這種錯(cuò)誤目前只能由手工糾正。
基因組注釋是一個(gè)復(fù)雜、繁瑣的過(guò)程,需要大量的生物學(xué)知識(shí)。詳盡、準(zhǔn)確的注釋需要經(jīng)過(guò)嚴(yán)格的生物學(xué)實(shí)驗(yàn)才能獲得。
本系統(tǒng)對(duì)測(cè)試序列的注釋結(jié)果仍有許多未知功能基因,需不斷擴(kuò)充新數(shù)據(jù)而逐步更新。MGAP 的新版本將增加交互式用戶(hù)注釋模塊,進(jìn)一步擴(kuò)充和增強(qiáng)該系統(tǒng)注釋功能。
基因組注釋 是利用生物信息學(xué)方法和工具,對(duì)基因組所有基因的生物學(xué)功能進(jìn)行高通量注釋。
基因組注釋的研究?jī)?nèi)容包括基因識(shí)別和基因功能注釋兩個(gè)方面?;蜃R(shí)別的核心是確定全基因組序列中所有基因的確切位置。從基因組序列預(yù)測(cè)新基因,現(xiàn)階段主要是3 種方法的結(jié)合:
(1)分析mRNA 和EST數(shù)據(jù)以直接得到結(jié)果;
(2)通過(guò)相似性比對(duì)從已知基因和蛋白質(zhì)序列得到間接證據(jù);
(3)基于各種統(tǒng)計(jì)模型和算法從頭預(yù)測(cè)。
對(duì)預(yù)測(cè)出的基因進(jìn)行高通量功能注釋可以借助于以下方法,利用已知功能基因的注釋信息為新基因注釋?zhuān)?/p>
(1)序列數(shù)據(jù)庫(kù)相似性搜索;
(2)序列模體搜索;
(3)直系同源序列聚類(lèi)分析。
擴(kuò)展資料:
基因注釋重大突破:
1、中國(guó)科學(xué)院水生生物研究所葛峰研究員學(xué)科組利用蛋白基因組學(xué)的研究策略和方法,成功對(duì)單細(xì)胞光合真核生物三角褐指藻的基因組進(jìn)行了深度注釋?zhuān)瓿闪巳呛种冈宓牡鞍踪|(zhì)組精細(xì)圖譜,并建立了完整的真核生物基因組深度注釋實(shí)驗(yàn)技術(shù)和分析流程。
該研究成果的取得,有望進(jìn)一步推動(dòng)蛋白基因組學(xué)在生命和健康領(lǐng)域特別是精準(zhǔn)醫(yī)學(xué)方面的應(yīng)用。
2、美國(guó)加州大學(xué)舊金山分校研究人員發(fā)現(xiàn),GABP蛋白的一種特定成分GABP-β1L,是與端粒酶逆轉(zhuǎn)錄酶(TERT)啟動(dòng)子突變相關(guān)的膠質(zhì)母細(xì)胞瘤細(xì)胞不受控制地分裂、繁殖的關(guān)鍵。
他們10日在《腫瘤細(xì)胞》雜志上發(fā)表論文稱(chēng),新發(fā)現(xiàn)提供了一個(gè)很有前途的用藥靶點(diǎn),對(duì)未來(lái)膠質(zhì)母細(xì)胞瘤及其他多種與TERT啟動(dòng)子突變相關(guān)癌癥的治療具有重要意義。
參考資料來(lái)源:百度百科-基因組注釋
出現(xiàn)在重疊基因中:
①在核糖體結(jié)合位點(diǎn)之后含有多重起始位點(diǎn),或終止密碼的漏讀(其中UGA、UAG易被漏讀、錯(cuò)讀,UAA能?chē)?yán)格終止),例如兩種蛋白質(zhì)均從同一起始密碼開(kāi)始起譯,其中一種蛋白在遇到第一個(gè)終止密碼是就停止翻譯,另一種蛋白由于發(fā)生漏讀,核糖體繼續(xù)翻譯到下一個(gè)終止密碼處;
②以不同的讀碼框架對(duì)同一條mRNA進(jìn)行識(shí)讀和翻譯;
③選擇不同的起始密碼AUG,但按同一個(gè)讀碼框架對(duì)同一條mRNA進(jìn)行識(shí)讀和翻譯;
④編碼在同一DNA區(qū)段不同極性單鏈上的重疊基因,即反向重疊基因;
⑤真核生物內(nèi)含子選擇性剪接可由同一初級(jí)轉(zhuǎn)錄物產(chǎn)生多種蛋白質(zhì),即同源異型蛋白。
另一個(gè)版本:
①在核糖體結(jié)合位點(diǎn)之后含有多重起始位點(diǎn)
②在一兩個(gè)堿基的移碼方式出現(xiàn)重疊的可讀框
③不同的剪接方式,產(chǎn)生不同的mRNA方式
聲明:本網(wǎng)站尊重并保護(hù)知識(shí)產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請(qǐng)?jiān)谝粋€(gè)月內(nèi)通知我們,我們會(huì)及時(shí)刪除。
蜀ICP備2020033479號(hào)-4 Copyright ? 2016 學(xué)習(xí)鳥(niǎo). 頁(yè)面生成時(shí)間:3.128秒