首頁(yè) » 生活常識(shí) » 常用的編碼蛋白質(zhì)基因的注釋方法(基因組注釋分析主要包括哪些內(nèi)容)

常用的編碼蛋白質(zhì)基因的注釋方法(基因組注釋分析主要包括哪些內(nèi)容)

分類：生活常識(shí) 日期：2022-07-27 23:07 瀏覽：4 次

1.基因組注釋分析主要包括哪些內(nèi)容

基因組注釋分析主要包括哪些內(nèi)容

基因組注釋包括以下方面的內(nèi)容：

(1) 重復(fù)序列的預(yù)測(cè)。通過(guò)比對(duì)已知的重復(fù)序列數(shù)據(jù)庫(kù)，找出序列中包含的重復(fù)序列，識(shí)別類型并轉(zhuǎn)化為N或者X，統(tǒng)計(jì)各種類型重復(fù)序列的分布。

(2) 編碼基因的預(yù)測(cè)。通過(guò)將轉(zhuǎn)錄組或EST數(shù)據(jù)比對(duì)到拼接后的基因組序列上，找出編碼基因位置，預(yù)測(cè)編碼基因結(jié)構(gòu)。或者通過(guò)專業(yè)的外顯子預(yù)測(cè)軟件，預(yù)測(cè)編碼基因的外顯子結(jié)構(gòu)。

(3) 小RNA基因的預(yù)測(cè)。通過(guò)比對(duì)已知的小RNA的數(shù)據(jù)庫(kù)，或者通過(guò)生物信息（bioinformation）學(xué)軟件預(yù)測(cè)，找出這些小RNA基因，并進(jìn)行分類。

(4) 調(diào)控序列和假基因的預(yù)測(cè)。

基因功能的注釋，使用的數(shù)據(jù)庫(kù)包括NT/NR, SwissProt/TrEMbl, InterPro, KEGG, COG, Gene ontology等，使用比對(duì)的方法，如blast，找出同源相近的基因，并注釋功能。

2.基因組注釋的系統(tǒng)方法

111 開發(fā)環(huán)境本系統(tǒng)基于PC 微機(jī)，操作系統(tǒng)為L(zhǎng)inux。

測(cè)試系統(tǒng)為PIII 550 雙CPU 微機(jī)，內(nèi)存1GB ，運(yùn)行RedHat 710 Linux 系統(tǒng)。數(shù)據(jù)庫(kù)管理系統(tǒng)使用MySQL ,Web 服務(wù)器程序使用Apache ，應(yīng)用程序接口用Perl 腳本語(yǔ)言編寫。

本系統(tǒng)也可在單CPU 微機(jī)上運(yùn)行，內(nèi)存不小于512MB。所有系統(tǒng)軟件和應(yīng)用軟件均可以從Internet 網(wǎng)上免費(fèi)獲得。

112 測(cè)試數(shù)據(jù)本系統(tǒng)用藍(lán)細(xì)菌（ Synechococcus sp. ） PCC7002 基因組初步拼接所得最大重疊連續(xù)群（Contig）作測(cè)試數(shù)據(jù)，共3 03247bp 。113 MGAP 的基因組注釋系統(tǒng)基因組注釋系統(tǒng)是MGAP 的核心，整合了許多常用的基因識(shí)別和蛋白質(zhì)功能預(yù)測(cè)軟件，包括GeneMarks、IPRsearch、BLASTPGP 和FASTA3 等，以及多個(gè)數(shù)據(jù)庫(kù)，如非冗余蛋白質(zhì)序列數(shù)據(jù)庫(kù)（Non redundant , NR）、已知三維空間結(jié)構(gòu)的蛋白質(zhì)序列數(shù)據(jù)庫(kù)（PDBSeq）、國(guó)際蛋白質(zhì)資源信息系統(tǒng)（ InterPro） [6] 和直系同源蛋白質(zhì)家族數(shù)據(jù)庫(kù)（Cluster of orthologousgroups ,COG）等，編寫了相應(yīng)的模塊進(jìn)行自動(dòng)操作，并把每一步注釋結(jié)果導(dǎo)入數(shù)據(jù)庫(kù)中。

MGAP 整合的一般模塊，可以被其他任何一種微生物基因組直接使用。不同實(shí)驗(yàn)室可根據(jù)實(shí)際研究需要，增加相應(yīng)模塊或數(shù)據(jù)，如藍(lán)細(xì)菌Anabaena sp. strain PCC 7120 的蛋白質(zhì)序列庫(kù)等。

基因識(shí)別是MGAP 的第一步，本系統(tǒng)采用微生物基因組基因識(shí)別最為權(quán)威的Gene2Marks 軟件進(jìn)行基因預(yù)測(cè)，通過(guò)http :PPopal .biology.gatech.. cgi 網(wǎng)站提交重疊連續(xù)群測(cè)試序列（3 03247bp），使用GeneMarks 缺省參數(shù)，預(yù)測(cè)得到279 個(gè)基因。然后用MGAP 的數(shù)據(jù)加載模塊（Loaddata）將預(yù)測(cè)結(jié)果導(dǎo)入ORF 表中。

114 MGAP 的用戶接口用戶接口用于展示注釋結(jié)果，提供易于操作和分析平臺(tái)。本系統(tǒng)用戶接口基于Web設(shè)計(jì)開發(fā)，用戶可通過(guò)瀏覽器訪問(wèn)基因組注釋系統(tǒng)，包括基因組環(huán)狀圖展示、基因和ORF在染色體上分布圖，并對(duì)注釋信息進(jìn)行檢索。

基因組環(huán)狀基因分布圖構(gòu)建基于如下信息：預(yù)測(cè)所得基因的起始位置、長(zhǎng)度，編碼基因的正負(fù)鏈信息，以及預(yù)測(cè)的基因功能分類。2 結(jié)果圖1 是MGAP 系統(tǒng)對(duì)PCC7002 基因組重疊連續(xù)群測(cè)試序列注釋結(jié)果。

A 為基因展示圖，B 為ORF 顯示頁(yè)面。A 中由外向內(nèi)依次為：（1）正鏈編碼基因；（2）負(fù)鏈編碼基因；（3）GC 含量統(tǒng)計(jì)；（4） GC 偏離量統(tǒng)計(jì)。

該系統(tǒng)構(gòu)建的環(huán)狀基因組，可顯示正負(fù)鏈上的編碼基因，用相應(yīng)顏色表示功能類別。本系統(tǒng)沿用經(jīng)典蛋白質(zhì)功能分類方法[8] ，即把微生物基因組所有基因按功能分為16 大類，進(jìn)而細(xì)分為113 個(gè)子類。

此外，還增加了統(tǒng)計(jì)GC 含量和GC 偏離量（GC Bias）功能。計(jì)算GC 含量時(shí)以200bp 為滑動(dòng)窗口，計(jì)算GC 偏離量時(shí)以13kb 為滑動(dòng)窗口。

GC 偏離量表示G和C 含量的差別，定義為：（G2C）P(G+ C) [9] 。點(diǎn)擊A圖中環(huán)狀基因組展示圖，則可得到B 圖基因組局部ORF 顯示頁(yè)面。

點(diǎn)擊圖中某個(gè)ORF ，即可調(diào)出其所有注釋信息，包括該ORF 在基因組中的位置、長(zhǎng)度、正負(fù)鏈信息、核酸和蛋白序列，以及對(duì)NR 蛋白庫(kù)、COG數(shù)據(jù)庫(kù)、InterPro 、PDBseq 數(shù)據(jù)庫(kù)的搜索結(jié)果。所有結(jié)果都有相對(duì)應(yīng)的連接可以直接連到原始數(shù)據(jù)庫(kù)。

3 討論新基因組功能注釋是基因組研究的重要方面，MGAP 把注釋所用軟件和公共數(shù)據(jù)庫(kù)進(jìn)行有機(jī)集成，使注釋過(guò)程自動(dòng)進(jìn)行并把結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)系統(tǒng)中，最終提供友好的界面，可為中小實(shí)驗(yàn)室提供方便實(shí)用的微生物基因組注釋系統(tǒng)，減少人工參與，提高注釋效率。該系統(tǒng)考慮到國(guó)內(nèi)一般中小實(shí)驗(yàn)室的實(shí)際情況，基于廉價(jià)的PC 微機(jī)和免費(fèi)Linux、MySQL 、Apache 和Perl 等軟件系統(tǒng)開發(fā)。

必須指出，目前所有計(jì)算機(jī)注釋信息，均不能保證完全準(zhǔn)確。MGAP 在一定程度上依賴于現(xiàn)有數(shù)據(jù)庫(kù)中的注釋信息。

由于各種原因，這些注釋信息必然有一些錯(cuò)誤。顯然，這些錯(cuò)誤信息將不可避免地引入新的注釋系統(tǒng)。

為此，MGAP 綜合了多種注釋方法，并互為補(bǔ)充。例如，一個(gè)ORF 既有BLASTP從NR 數(shù)據(jù)庫(kù)搜索到的相似序列，又在InterPro 蛋白質(zhì)模體庫(kù)中找到相應(yīng)功能位點(diǎn)，也可找到高分匹配的COGs ，那么該注釋結(jié)果就比較可靠。

此外，必要的人工注釋，可以避免或糾正自動(dòng)注釋的錯(cuò)誤。例如，由于測(cè)序錯(cuò)誤產(chǎn)生的讀碼框移位或是缺失，會(huì)導(dǎo)致一個(gè)基因被拆分成兩段，這種錯(cuò)誤目前只能由手工糾正。

基因組注釋是一個(gè)復(fù)雜、繁瑣的過(guò)程，需要大量的生物學(xué)知識(shí)。詳盡、準(zhǔn)確的注釋需要經(jīng)過(guò)嚴(yán)格的生物學(xué)實(shí)驗(yàn)才能獲得。

本系統(tǒng)對(duì)測(cè)試序列的注釋結(jié)果仍有許多未知功能基因，需不斷擴(kuò)充新數(shù)據(jù)而逐步更新。MGAP 的新版本將增加交互式用戶注釋模塊，進(jìn)一步擴(kuò)充和增強(qiáng)該系統(tǒng)注釋功能。

3.什么是基因注釋

基因組注釋是利用生物信息學(xué)方法和工具，對(duì)基因組所有基因的生物學(xué)功能進(jìn)行高通量注釋。

基因組注釋的研究?jī)?nèi)容包括基因識(shí)別和基因功能注釋兩個(gè)方面?；蜃R(shí)別的核心是確定全基因組序列中所有基因的確切位置。從基因組序列預(yù)測(cè)新基因，現(xiàn)階段主要是3 種方法的結(jié)合：

(1)分析mRNA 和EST數(shù)據(jù)以直接得到結(jié)果；

(2)通過(guò)相似性比對(duì)從已知基因和蛋白質(zhì)序列得到間接證據(jù)；

(3)基于各種統(tǒng)計(jì)模型和算法從頭預(yù)測(cè)。

對(duì)預(yù)測(cè)出的基因進(jìn)行高通量功能注釋可以借助于以下方法，利用已知功能基因的注釋信息為新基因注釋：

(1)序列數(shù)據(jù)庫(kù)相似性搜索；

(2)序列模體搜索；

(3)直系同源序列聚類分析。

擴(kuò)展資料：

基因注釋重大突破：

1、中國(guó)科學(xué)院水生生物研究所葛峰研究員學(xué)科組利用蛋白基因組學(xué)的研究策略和方法，成功對(duì)單細(xì)胞光合真核生物三角褐指藻的基因組進(jìn)行了深度注釋，完成了三角褐指藻的蛋白質(zhì)組精細(xì)圖譜，并建立了完整的真核生物基因組深度注釋實(shí)驗(yàn)技術(shù)和分析流程。

該研究成果的取得，有望進(jìn)一步推動(dòng)蛋白基因組學(xué)在生命和健康領(lǐng)域特別是精準(zhǔn)醫(yī)學(xué)方面的應(yīng)用。

2、美國(guó)加州大學(xué)舊金山分校研究人員發(fā)現(xiàn)，GABP蛋白的一種特定成分GABP-β1L，是與端粒酶逆轉(zhuǎn)錄酶（TERT）啟動(dòng)子突變相關(guān)的膠質(zhì)母細(xì)胞瘤細(xì)胞不受控制地分裂、繁殖的關(guān)鍵。

他們10日在《腫瘤細(xì)胞》雜志上發(fā)表論文稱，新發(fā)現(xiàn)提供了一個(gè)很有前途的用藥靶點(diǎn)，對(duì)未來(lái)膠質(zhì)母細(xì)胞瘤及其他多種與TERT啟動(dòng)子突變相關(guān)癌癥的治療具有重要意義。

參考資料來(lái)源：百度百科-基因組注釋

4.列舉一個(gè)已知的 DNA序列編碼一種以上蛋白質(zhì)的三種方法

出現(xiàn)在重疊基因中：

①在核糖體結(jié)合位點(diǎn)之后含有多重起始位點(diǎn)，或終止密碼的漏讀（其中UGA、UAG易被漏讀、錯(cuò)讀，UAA能嚴(yán)格終止），例如兩種蛋白質(zhì)均從同一起始密碼開始起譯，其中一種蛋白在遇到第一個(gè)終止密碼是就停止翻譯，另一種蛋白由于發(fā)生漏讀，核糖體繼續(xù)翻譯到下一個(gè)終止密碼處；

②以不同的讀碼框架對(duì)同一條mRNA進(jìn)行識(shí)讀和翻譯；

③選擇不同的起始密碼AUG，但按同一個(gè)讀碼框架對(duì)同一條mRNA進(jìn)行識(shí)讀和翻譯；

④編碼在同一DNA區(qū)段不同極性單鏈上的重疊基因，即反向重疊基因；

⑤真核生物內(nèi)含子選擇性剪接可由同一初級(jí)轉(zhuǎn)錄物產(chǎn)生多種蛋白質(zhì)，即同源異型蛋白。

另一個(gè)版本：

①在核糖體結(jié)合位點(diǎn)之后含有多重起始位點(diǎn)

②在一兩個(gè)堿基的移碼方式出現(xiàn)重疊的可讀框

③不同的剪接方式，產(chǎn)生不同的mRNA方式

常用的編碼蛋白質(zhì)基因的注釋方法有哪些

上一篇：水光針需要經(jīng)常打嗎？下一篇：2022天山路的悲傷抖音說(shuō)說(shuō)(就算我身后空無(wú)一人我也孤獨(dú)的漂亮)

潮流時(shí)尚	寫作素材	創(chuàng)新創(chuàng)業(yè)
生活常識(shí)	策劃方案	安全知識(shí)
自考專業(yè)	家居生活	三農(nóng)創(chuàng)業(yè)
勵(lì)志故事	時(shí)尚穿搭	星座知識(shí)

欧美一区二区二区,日韩欧美一区二区在线,国产91成人精品亚洲精品,国产日韩精品一区二区,一区二区三区在线观看免费,亚洲一区中文,亚洲二区在线

常用的編碼蛋白質(zhì)基因的注釋方法(基因組注釋分析主要包括哪些內(nèi)容)

1.基因組注釋分析主要包括哪些內(nèi)容

2.基因組注釋的系統(tǒng)方法

3.什么是基因注釋

4.列舉一個(gè)已知的 DNA序列編碼一種以上蛋白質(zhì)的三種方法

相關(guān)推薦

解讀是什么意思(文化解讀是什么意思)

中小學(xué)生安全教育直播在線觀看

酒瓶屬于以下哪種垃圾分類(酒瓶是什么垃圾分類)

自發(fā)熱護(hù)腰帶有害嗎(自熱腰自發(fā)熱護(hù)腰帶有害)

油炸花生米怎么炸又酥又脆(油炸花生米的家常做法)

澳門媽祖廟的由來(lái)？

室內(nèi)濕度70需要除濕嗎(濕度70需要除濕機(jī)嗎)

陳皮白茶的功效與禁忌(陳皮白茶功效)

什么人不能喝柳樹葉水飲料(長(zhǎng)期喝柳樹葉水的危害)

老酸奶喝了有什么好處和壞處(老酸奶的好處)