Download presentation
Presentation is loading. Please wait.
1
以表現標誌序列重組南美白蝦之轉錄基因體並比較不同組織間的基因表現
指導教授: 林仲彥 老師 報告者: 林宜靜 2012/07/26
2
大綱 前言 材料方法 結果與討論 結論
3
前言
4
前言--研究背景 台灣的蝦類養殖量 草蝦(Penaeus monodon)為主要養殖物種 1970年 73噸 1987年 78,548噸
1988年 後產量急遽下降 2000年以後,白蝦為養殖的主要品種 1970年 500噸 -> 1987年 88,264 噸 1998年 引進無特定病原 (Specific Pathogen Free,SPF) 白蝦種蝦 資料來源:FAO
5
前言--研究背景 全世界蝦類產量 2000年 146,362噸 2009年 2,327,534噸 總產量的佔有率約66%左右
白蝦為全世界重要的養殖物種 資料來源:FAO
6
前言--研究背景 影響蝦類養殖的因素 環境因子:水質、溶氧量、鹽度、溫度 生物因子:蝦苗體的狀況、病原體的感染 集約或是半集約的養殖方式
溶氧量下降或pH值改變 受到病原侵襲,疾病爆發,如白點病 (White Spot virus disease) 台灣(1988)、中國(1993)、泰國(1996)都曾發生大規模的疾病爆發 養殖方式 蝦類的物種研究
7
前言--研究動機 Expressed sequenced tag (EST,表達序列標籤) 1991年,開始被使用於人類基因體研究
由特定生物檢體製備的 cDNA library中,隨機抽取噬菌體殖株,經單次單向(或雙向)定序所得 轉錄基因的序列及相對表現數量 缺點 不能確保涵蓋基因表現序列的全長 本身內容可靠性稍顯不足 (Adams, et al. 1991)
8
資料來源:NCBI Taxonomy (Date: March, 2012)
前言--研究動機 EST定序研究 以較小的花費,定序到大量基因 序列組裝的問題較小 對蝦類的EST序列定序數目,約佔所有十足目的一半,其中以白蝦 ESTs 數量最大,達十六萬餘筆。 物種 ESTs定序數目 中國明對蝦 10,446 白蝦 161,241 草蝦 39,397 斑節蝦 3,156 214,240 完整基因體序列解析的物種侷限在少數生物模式物種。相對地,EST定序研究是能夠以比較小的花費,定序到大量能夠製造蛋白質產物的基因,而且序列組裝的問題較小,因此受到研究者的重視。就對蝦類研究來說,較具規模的EST 定序物種有四:草蝦(Penaeus monodon)、白蝦(Litopenaeus vannamei)、中國明對蝦(Fenneropenaeus chinensis)與斑節蝦(Marsupenaeus japonicus),約佔所有十足目 EST 序列數量的一半,其中以白蝦 ESTs 數量最大,達十六萬餘筆。 資料來源:NCBI Taxonomy (Date: March, 2012)
9
前言--研究目的 藉由EST資料,重組白蝦的轉錄基因體(transcriptome) 找尋同源性基因 預測分子功能 可能參與的生理代謝途徑
比較不同組織間其表現基因的差異 對白蝦的生理狀態有進一步的了解,或許對於疾病的感染防治能有 所助益,此外,也能作為白蝦基因體研究,以及其他對蝦物種的轉 錄體研究的參考模式。 白蝦迄今仍沒有完整的基因體資料,因此我們希望運用大型的公開資料庫NCBI上所儲存的EST資料,將ESTs經過assembly,得到白蝦的轉錄基因體(transcriptome),運用生物資訊的工具,在公開的non-redundant database中找尋其同源性基因,藉此預測分子功能的註解及可能參與的生理代謝途徑,進而比較不同組織間其表現基因的差異,希望藉由不同的組裝方式得到較為可信的轉錄基因體,預測轉錄基因的功能,可讓我們對白蝦的生理狀態有進一步的了解,或許對於疾病的感染防治能有所助益,此外,也能作為白蝦基因體研究,以及其他對蝦物種的轉錄體研究的參考模式。
10
血細胞、肝胰臟、鰓、淋巴器官、眼柄以及腹神經索
前言--文獻回顧 白蝦 作者 Gross et al. O' Leary et al. Clavero-Sales et al. 年份 2001 2006 2007 EST數 2,045 13,656 601 取得來源 南美白蝦之血細胞及肝胰臟 vs 白濱對蝦之血細胞及肝胰臟 血細胞、肝胰臟、鰓、淋巴器官、眼柄以及腹神經索 鰓(白點病毒感染) assembly N Y assembly 方式 de novo (CAP3)
11
前言--文獻回顧 斑節蝦 中國對蝦 作者 Rojtinnakorn et al. Yamano 和 Unuma Dong and Xiang
Jianhai et al. 年份 2002 2006 2007 2008 EST數 1,005 1,988 2,371 10,446 取得來源 血細胞: 白點病毒感染 vs 健康 眼柄 血細胞 頭胸部 assembly N Y assembly 方式 de novo (CAP3)
12
前言--文獻回顧 草蝦 作者 年份 EST數 取得來源 assembly assembly 方式 Lehnert et al.
Supungul et al. Tassanakajon et al. Preechaphol et al. Leu et al. Pongsomboon et al. Leelatanawit et al. 年份 1999 2002 2004 2006 2007 2008 2009 EST數 176 615 1,062 10,100 1,051 13,934 1,033 896 取得來源 頭胸部 眼柄 泳足 血細胞 血細胞: 哈威弧菌感染 vs 健康 肝胰腺 造血組織 淋巴組織 卵巢 稚蝦: 白點症感染 健康稚蝦 淋巴器官: Vs 精巢 assembly N Y assembly 方式 de novo (CAP3)
13
前言--文獻回顧 大多數的前人研究皆直接以EST進行註解 少數研究有進行assembly
assembly方式: de novo assembly
14
材料方法
15
材料方法--材料介紹 白蝦的EST 取自NCBI dbESTs (Database of Expressed Sequence Tags)
日期:2011/3/17 84個 cDNA libraries Numbers Min. length(bps) Max. length(bps) Ave. length(bps) ESTs of Litopenaeus vannamei 161,241 19 2,143 494
16
材料方法--材料介紹 水蚤的轉錄基因體 取得位置:JGI 日期:2011/4/13
版本:FilteredModelsv1.1.na.fasta.gz Numbers Min. length(bps) Max. length(bps) Ave. length(bps) Genes of Daphnia pulex 30,907 150 24,144 1,061
17
Drosophila melanogaster
材料方法--材料介紹 果蠅蛋白質體 取得位置:FlyBase 日期:2011/6/29 版本:dmel-all-translation-r5.38 Numbers Min. length(bps) Max. length(bps) Ave. legnth(bps) Proteins of Drosophila melanogaster 23,711 11 22,971 632
18
材料方法--組裝序列之策略 策略: Gene A Gene B Gene C blast Gene A Gene B Gene C
參考基因體 Gene A Gene B Gene C 白蝦ESTs blast 策略: 參考Jain et al. 提出的概念 利用相近物種的draft genome作為參考基因體,將白蝦ESTs與參考基因體進行序列比對,藉由對應的基因將白蝦ESTs進行分組,之後在組內進行de novo assembly。 參考基因體 Gene A Gene B Gene C 白蝦ESTs de novo assembly
19
材料方法--組裝序列之工具 工具: MIRA 適用:Sanger、454、Solexa 以high confidence region (HCR)為主體,序列依照彼此HCR擁 有相同或重疊的區間,進行合併延伸,減少因序列兩端的錯誤讀取, 導致組裝錯誤的產生
20
alignment length > 50 aa.
材料方法--組裝流程 (水蚤) 參考基因體 (水蚤轉錄基因體) Gene A Gene B Gene C 白蝦ESTs tblastx, E-value<10-5 參考基因體 (水蚤轉錄基因體) Gene A Gene B Gene C 白蝦ESTs No Hit alignment length > 50 aa. MIRA, de novo assembly Contig I Singleton I
21
alignment length > 50 aa.
材料方法--組裝流程 (果蠅) 參考基因體 (果蠅蛋白質體) Gene A Gene B Gene C 白蝦ESTs blastx, E-value<10-5 Gene A Gene B Gene C 參考基因體 (果蠅蛋白質體) No Hit 白蝦ESTs alignment length > 50 aa. MIRA, de novo assembly Contig II Singleton II
22
材料方法--組裝流程 (DE NOVO ASSEMBLY)
Singleton II MIRA, de novo assembly Contig III Singleton III
23
材料方法--功能註解 組裝序列 Contig I--與水蚤轉錄基因體進行相似性序列比對後經過重組得到
Contig II--與果蠅蛋白質體進行相似性序列比對後經過重組得到 Contig III--de novo assembly組裝得到 Singleton III--無法與任何 ESTs 合併組裝成contig 援用已知序列之功能註解 blastx NCBI nr ( E-value<10-5) rpsblast Pfam (E-value<10-3 ) 若有多條序列符合條件,則選取 E-value 最小的序列做為最適結果
24
材料方法--功能註解 Gene Ontology 一套有系統的語言 使不同資料庫對於基因產物的功能描述達到一致
cellular component (CC):描述細胞的每個部份或胞外環境 molecular function (MF):說明基因的分子功能 biological process (BP):細胞內的生物處理程序。 利用pfam2go對應表,得到組裝序列的GO註解
25
材料方法--組織的基因表現概況 眼柄、鰓、血細胞、肝胰腺、淋巴器官、神經索 定序數量超過20,000條
Library ID* Library Description ESTs number Lib.22684 Litopenaeus vannamei eyestalk cDNA library 29,575 Lib.22686 Litopenaeus vannamei hemocyte cDNA library 27,369 Lib.22685 Litopenaeus vannamei gills cDNA library 24,296 Lib.22688 Litopenaeus vannamei lymphoid organ cDNA library 24,214 Lib.22687 Litopenaeus vannamei hepatopancreas cDNA library 22,272 Lib.22689 Litopenaeus vannamei nerve cord cDNA library 20,179 Total 147,905 眼柄、鰓、血細胞、肝胰腺、淋巴器官、神經索 定序數量超過20,000條 分析EST 序列組成與表現差異,反映各組織的功能特化
26
材料方法--組織的基因表現概況 GO 項目 一組織中的contigs contigs 所包含的EST 此類功能的組裝序列在組織中的表現比例
Contigs 利用ESTs重建的可能基因構造 ESTs數量與真正的基因表現量有高度的正相關性 此類功能的組裝序列在組織中的表現比例
27
材料方法--組織間表現基因的差異性 Digital Differential Display (DDD)
-- 用以比對特定基因在不同組織內,其EST的表現量是否有所差異 一組織的contigs vs. 其餘五個組織的所有contigs contig的EST數 TPM轉換 Fisher’s exact test檢定,篩選 p-value<10-3 的contigs 得到該組織與其餘五個組織其表現量有顯著差異的contigs TPM轉換--消除不同library,內含不同量的EST所造成的差異
28
材料方法--組織間表現基因的差異性 Selected library Others library Total
Selected library Others library Total TPM value of selected contigs A B A+B TPM value of non-selected contigs C D C+D A+C B+D A+B+C+D (=N)
29
材料方法--組織間表現基因的差異性 經DDD分析後得到的contigs列表 將contigs依照所對應的GO項目歸類
Gene Ontology Enrichment Analysis 經DDD分析後得到的contigs列表 將contigs依照所對應的GO項目歸類 Fisher’s exact test 檢定GO項目 得到顯著差異性的項目 描述該contig列表的生物功能 以Gene Ontology 來進行功能性分析 DDD將可篩選出特定表現模式的基因群 統計的方法檢定GO項目,由統計檢定值判斷GO項目是否具有統計上的意義,選擇其顯著差異性最高的項目描述基因群的生物功能,此過程稱為enrichment analysis
30
材料方法--組織間表現基因的差異性 The selected library
The selected library Complement of the selected library Total The number of selected GO term a b a+b The number of complement of the selected GO term c d c+d Total number a+c b+d a+b+c+d(=n)
31
材料方法--組織間表現基因的差異性 Venn diagram & KEGG pathway enrichment analysis
不同集合之間的數學或邏輯上的圖像化表現 表現兩個libraries之間其contigs的異同處 KEGG PATHWAY database 提供圖像化生物調控網路的資料庫
32
材料方法--組織間表現基因的差異性 Blastx, KEGG PATHWAY database, E-value<10-3
選取欲進一步做分析的兩個library,利用Venn diagram決定其交集及不重疊的assemblies,接著以blastx程式對KEGG PATHWAY database進行序列相似性比對,以E-value<10-3的標準,來找出與特定KEGG ID的對應關係,進而得知特定contigs所參與的生理代謝途徑,隨後進行enrichment analysis PAYHWAY PATHWAY 三組結果分別進行enrichment analysis 顯著差異性的項目說明組裝序列參與的生理功能
33
材料方法--組織間表現基因的差異性 The selected sets Complement of the selected sets
The selected sets Complement of the selected sets Total The number of selected pathway α β α+β The number of complement of the selected pathway γ δ γ+δ Total number α+γ β+δ α+β+γ+δ(=k)
34
結果與討論
35
結果--白蝦EST在組裝序列中的分佈比例
經參考基因體組裝的Contig I及Contig II 約包含1/3的ESTs 經de novo 組裝的Contig III 包含半數以上的ESTs
36
結果--白蝦的組裝序列 經de novo 組出的contig 其數量最多 (Contig III )
number Avg. length Min. length Max. length ESTs 161,241 494 19 2,143 Contig I 3,361 839 83 2,789 Contig II 920 712 99 2,199 Contig III 12,605 635 80 4,501 Singleton III 20,515 400 經de novo 組出的contig 其數量最多 (Contig III ) Contig III 中有一條長度超過4000bp 的序列 最短及最長的ESTs 未能組成contig
37
結果--白蝦的組裝序列之長度分布圖 Contig:集中在300~900bp 以800bp最多 Singleton:集中在200~800bp 以200bp最多
38
小結 Contig I一46,471條ESTs序列,Contig II一7,501條ESTs序列
參考基因體的物種越相近,找到同源基因的比例越高 進而提升用於組裝的EST數量及準確度 Contig III一86,754條ESTs序列 仍有超過半數的ESTs 無法在水蚤及果蠅中找到同源序列 可能包含白蝦的特有基因 顯示選擇與ESTs取樣來源越相近的物種,來作為參考基因體時,其能找到同源基因的比例會越高,用於組裝序列的ESTs數量也會增加,進而提高組裝的準確度。
39
小結 比較本研究及前人研究的組裝結果: Contig涵蓋的ESTs 比例較高 Singleton 佔有的比例較低 白蝦 草蝦 中國對蝦 作者
O’Leary et al. Clavero-Sales et al. Tassanakajon et al. Leu et al. Jianhai et al. all EST 161,241 13,656 601 10,100 15,981 10,446 EST in contig 140,726 (87%) 8,171 (59.8%) 404 (67%) 6,172 (61%) 7,723 (48%) 8,725 (83.5%) singleton 20,515 (12.7%) 5,484 (40.2%) 197 (33%) 3,928 (39%) 8,258 (52%) 1,721 (16.5%)
40
結果--註解組裝序列 blastx nr database 11,565筆 30.92% rpsblast Pfam database 15,398筆 41.17% 甲殼類:32% 其他節肢動物:40% 其他物種:28%
41
小結 nr database的11,565筆,有78%同時在Pfam database中找到 最適配對 藉由Pfam得到更多註解
nr + Pfam 48%
42
結果--組織的ESTS數量分佈
43
結果--組織的ESTS數量統計 眼柄組織 -- EST數量最多 肝胰臟組織 – 被註解的EST數量比例最高 eyestalk gills
eyestalk gills hemocyte hepatopancreas lymphoid organ nerve cord EST 29575 24296 27369 22272 24214 20179 annotated ESTs (%) 20712 (70.03) 15166 (62.42) 17183 (62.78) 16641 (74.72) 16006 (66.10) 12374 (61.32) contigs 3743 2905 2973 2825 2530 2836 singleton 1567 964 1025 1456 785 1126 眼柄組織 -- EST數量最多 肝胰臟組織 – 被註解的EST數量比例最高
44
結果--組織的基因表現概況 (GO - CC)
45
結果--組織的基因表現概況 (GO - MF)
46
結果--組織的基因表現概況 (GO - BP)
47
小結 表現量的趨勢上有所差異 表現量高的分類項目(GO term) 都相同 也許是因為選擇level 1的項目作為分類
48
結果--組織間表現基因的差異性 經DDD分析後,得到六份組裝序列的列表及數量: 眼柄 - 451條 contigs
49
結果-- GO ENRICHMENT ANALYSIS (MF)
Tissue GO terms Proportion (%) P-value eyestalk structural constituent of cuticle 13.3 3.14E-34 pattern binding 3.33 2.09E-08 carbohydrate binding 2.84E-08 structural constituent of ribosome 6.21 4.49E-08 gills 4.72 1.19E-05 4.34 hemocyte 4.9 1.77E-06 hepatopancreas hydrolase activity 12.70 7.52E-33 4.64 2.68E-22 5.82E-22 substrate-specific transporter activity 3.14 4.69E-07 lymphoid organ 4.92 3.17E-06 2.37 3.50E-06 4.57E-06 4.4 2.56E-05 ion binding 3.56 nerve cord 4.39
50
小結 眼柄、肝胰臟及淋巴器官 顯著表現的基因群功能較多樣 鰓、血細胞及神經索 顯著表現的基因群功能較少
鰓、血細胞及神經索 顯著表現的基因群功能較少 structural constituent of cuticle 為最顯著表現之項目(肝胰臟及 淋巴器官除外) 鰓及眼柄都曾發現cuticle protein的表現 曾在天蛾中發現cuticle proteins從血淋巴被運輸到cuticle 神經索則未發現相關文獻
51
結果 -- VENN DIAGRAM 眼柄組織 共 3,742 條組裝序列 肝胰臟組織 共 2,825 條組裝序列 經Venn Diagram 得到其交集 1,002 條組裝序列 眼柄組織本有3,742條組裝序列,肝胰腺有2,825條,發現在兩個組織間有1,002條組裝序列是相同的 eyestalk_only共2,740 hepatopancreas_only共1,823 intersection共1,002條
52
結果 – KEGG PATHWAY Intersection 找到相似序列的比例最高 Eyestalk_only 找到相似序列的比例最低
hepatopancreas_only intersection contigs 2740 1823 1002 E-value<10-3 1310 (48%) 1146 (63%) 759 (76%) associated pathway 247 238 205 Intersection 找到相似序列的比例最高 Eyestalk_only 找到相似序列的比例最低
53
結果 – KEGG PATHWAY ENRICHMENT ANALYSIS
eyestalk_only P-value hepatopancreas_only intersection Tight junction 2.41E-14 Metabolic pathways 1.13E-57 Ribosome 9.91E-75 Regulation of actin cytoskeleton 4.88E-13 Betalain biosynthesis 2.3E-44 8.16E-45 Focal adhesion 5.83E-13 Isoquinoline alkaloid biosynthesis Oxidative phosphorylation 9.92E-38 Glycosphingolipid biosynthesis - ganglio series 5.67E-11 Riboflavin metabolism 4.2E-43 Parkinson's disease 3.15E-37 Glycosphingolipid biosynthesis - globo series 1.66E-10 Melanogenesis 4.98E-36 Huntington's disease 3.85E-33 GnRH signaling pathway 2.58E-10 Tyrosine metabolism 3.99E-35 Alzheimer's disease 1.63E-30 Leukocyte transendothelial migration 7.57E-10 Biosynthesis of secondary metabolites 1.59E-34 RNA transport 3.79E-13 Glycosaminoglycan degradation 3.02E-09 Protein digestion and absorption 3.24E-20 Cardiac muscle contraction 2.91E-12 Dilated cardiomyopathy 4.19E-09 Tuberculosis 1.72E-19 Proteasome 2.75E-11 Viral myocarditis 1.21E-08 Pancreatic secretion 7.25E-18 Carbon fixation in photosynthetic organisms 1.09E-10
54
小結 Intersection – Ribosome 其基因群中的142條contigs,幾乎全是核醣體蛋白質
Hepatopancreas_only – Betalain biosynthesis betalain為一種出現在植物及高等菌類中的色素 基因群中的序列皆為血藍素(hemocyanin) 肝胰臟是負責合成血藍素的組織 eyestalk_only – Tight junction 此基因群中的序列多為actin & myosin actin與myosin的交互作用參與許多過程 肌肉收縮、細胞分裂、運送膜微囊(membrane vesicle)、細胞蠕動(cell crawling) 須進一步的實驗證實
55
小結 利用GO 或KEGG PATHWAY ,為基因進行功能性分群 結果會受到註解資料庫的限制
基因在資料庫中的註解數量 註解的完整程度 註解的資訊是否正確 Functional enrichment的結果會因為下列因素而有所不同 統計方式 檢定值的設定 背景值的選擇 基因群的樣本大小 基因群在資料庫中的註解情形 本實驗中,組裝序列的註解情形並不完整,所以在功能性分群 及functional enrichment產生的結果,可能會偏離生物體中的 真實情形。
56
結論
57
結論 本研究試著採用較相近的物種--水蚤與果蠅,作為參考基因體,結 合定址對映(Mapping)及de novo assembly的組裝策略,來解析白 蝦基因體。 得到 20,515條singletons及16,886條contigs,共37,401條組裝序 列。 援用nr 及 Pfam 兩資料庫的序列,共48% 的白蝦組裝序列得到註 解。 眼柄、肝胰臟及淋巴器官三個組織,呈現的基因功能較多樣化。 眼柄及肝胰臟兩個組織間都有共同表現的組裝序列,大多是參與 轉譯過程的基因。 眼柄組織特有序列較集中表現actin及myosin兩個基因。 肝胰臟組織的特有序列,則是表現血藍素 (hemocyanin)。
58
Thank you for your attention
58
Similar presentations