1 项目概述

项目编号GDR20120491_std_1
样品信息AM

2 简介

2.1 全长转录组
完整的转录本包括了从5’端到3’端polyA尾的序列,长度集中分布在1-6kb。二代测序技术由于读长较短,得到的测序片段需要拼接,得到的转录本可能会产生拼接错误和较多的嵌合体,从而不能得到完整的转录本。第三代测序技术Pacbio利用单分子实时测序技术(SMRT),由于其超长的读长(平均15kb),无需拼接即可直接获取完整的全长转录本,因此可得到更高质量的转录本,有利于mRNA结构的研究,如可变剪切、融合基因、等位基因表达等。因此,全长转录本的研究越来越热门,发表的文章影响因子也比简单用二代测序RNA-seq要高。
目前第三代测序仪器最主要是美国太平洋生物技术公司( Pacific Biosciences)的RS II和Sequel。Sequel也是基于单分子实时技术(Single Molecular, Real-Time, (SMRT))的最新测序平台,其数据产出比RS II提高了约7倍,测序成本更低、项目周期更短。
利用Pacbio三代测序仪进行全长转录组的测序有以下优势:
2.2 实验流程

基于Pacbio Sequel的全长转录组文库不进行片段筛选,每个样本构建一个全库。文库构建整体流程如下图:

Fig 2-2-1 Sequel全长转录组cDNA文库构建整体流程图

本实验采用Clontech SMARTer PCR cDNA Synthesis Kit进行文库构建,具体步骤如下:
Fig 2-2-2 上机测序示意图

2.3 数据分析流程

数据分析总体流程如下:

使用SMRT Link V8.0.0[1]对Sequel2产生的原始数据进行分析。首先从下机数据中提取高质量的CCS序列,移除引物和barcode、poly(A)和连环结构,得到FLNC reads。再对相似的FLNC reads进行聚类,合并成一个完整的isoform。之后,可以对得到的全长转录本进行基因功能注释和结构分析。数据分析总体流程图如下:

Fig 2-3-1 全长转录组(无参)数据分析总体流程图

3 全长转录本分析

3.1 原始数据统计
Tab 3-1-1 subreads统计表
sampletotal base(bp)subreads numberaverage lengthN50
AM545223595312610818620882290

Fig 3-1-1 subreads长度分布图

横坐标表示subreads长度,纵坐标为subreads的数目
3.2 CCS分析

转录本可以在ZMW(zero-mode waveguides,零模波导孔)中循环测序,循环一圈,便可以将转录本的正链,互补链各测一遍,每循环一次叫一个full pass。CCS序列又称为环型一致性序列(Circular consensus sequence),它可经由CCS分析,把多次循环测序的转录本去冗余之后所产生。本报告流程选取下机数据中full passes 数目大于等于1的序列开展CCS分析,最后得到用于后续转录本分析的高精确度CCS reads(又称HIFI reads)。筛选后的CCS序列的数量和长度等信息统计如下:

Tab 3-2-1 CCS分析结果表
SampleNumber of readsNumber of CCS basesCCS Read Length (mean)Number of Passes (mean)
AM7001331595865928227934

Fig 3-2-1 CCS长度分布图 Fig 3-2-2 CCS passes分布图
x轴表示read长度,左边Y轴为柱形图坐标,表示长度在一定范围内(X轴)的reads数量。右边Y轴为曲线图坐标,表示长度大于一定数值(X轴)的reads数量。 横坐标表示full pass的数目,纵坐标表示含有对应full pass数的CCS序列的数目。

3.3 Reads聚类和校正
我们用Minimap2将相似的FLNC reads进行层级聚类,获取到一致性序列(Unpolished Consensus Isoforms)。然后利用Quiver算法对一致性序列进一步校正,根据输出的序列准确度,获得高质量序列(high quality isoforms,HQ isoforms,预测准确度≥0.99)和低质量序列(low quality isoforms,LQ isoforms,预测准确度<0.99),统计结果如下:
Tab 3-3-1 Cluster分析结果表
Number of polished high-quality isoformsNumber of polished low-quality isoforms
43348487

Fig 3-3-1 一致性序列长度分布图

横坐标表示聚类得到的一致性序列的长度,左纵坐标表示该长度的序列数量,右纵坐标表示长度大于一定数值(x轴)的序列数量
3.4 转录本的校正
如果有相同样本的二代Illumina测序数据,利用LoRDEC(version 0.8)[2]对上述低质量序列进行校正。校正后我们取校正覆盖度(二代数据校正的碱基占三代一致性序列的百分比)达99%以上的低质量序列与Quiver校正得到的高质量序列进行合并,得到更准确的转录本,用于后续分析。校正合并后的序列统计表如下:
Tab 3-4-1 校正后序列统计表
Total NumberTotal length(bp)Maximum Length(bp)Minimum Length(bp)Average Length(bp)N50 Length(bp)GC content
43354976514968282722252.42240943.48%

3.5 序列去冗余

Reads聚类和校正之后,使用软件cd-hit-v4.6.7对一致性序列进行去冗余,将相似度在99%以上的序列合并。采取局部比对的方法,其中,对于较短的序列,比对率必须达到99%,并且比对不上的碱基数要少于30bp;对于较长的序列,比对率必须达到90%,并且比对不上的碱基数要少于100bp。最终得到样本的全长转录组。

Tab 3-5-1 去冗余之后isoform统计表
Total NumberTotal length(bp)Maximum Length(bp)Minimum Length(bp)Average Length(bp)N50 Length(bp)GC content
34949777707268282722225.26238543.35%

Fig 3-5-1 isoform 序列长度分布图

x轴表示isoform长度,左边Y轴为柱形图坐标,表示长度在一定范围内(X轴)的isoform数量。右边Y轴为曲线图坐标,表示长度大于一定数值(X轴)的isoform数量。

4 基本注释

4.1 注释结果汇总
4. 1. 1 注释汇总统计
基本功能注释信息给出蛋白功能注释、Pathway 注释、COG/KOG 功能注释、Gene Ontology(GO)功能注释等
首先,通过blastx将isoform序列比对到蛋白数据库 nr、SwissProt、KEGG 和 COG/KOG(参数),得到跟给定 Isoform 具有最高序列相似性的蛋白,从而得到该 isoform 的蛋白功能注释信息。
Nr,SwissProt 是两个著名的蛋白数据库,其中 SwissProt 是经过严格筛选去冗余的。
COG/KOG 是对基因产物进行直系同源分类的数据库,每个 COG/KOG 蛋白都被假定来自祖先蛋白,COG/KOG 数据库是基于细菌、藻类、真核生物具有完整基因组的编码蛋白、系统进化关系进行构建的。
KEGG 是系统分析基因产物在细胞中的代谢途径以及这些基因产物的功能的数据库,用 KEGG 可以进一步研究基因在生物学上的复杂行为。

Tab 4-1-1 四大数据库注释统计表
Total UnigenesNrKEGGKOGSwissProtannotation geneswithout annotation gene
349493463634467243073055134660289


Fig 4-1-1 四大数据库注释维恩图

4. 1. 2 E值分布统计
将所有 Isoform 在 Nr、Swiss-Prot、KEGG 和 COG/KOG 四大数据库中的最佳比对结果的 比对E值 进行统计,将其分为 5 个范围,并统计每个范围内的基因个数。比对E值:Isoform 与数据库中匹配序列为同源序列的假阳性概率。

E值统计结果:evalue
  • KEGG
  • Nr
  • Swissprot
  • KOG

Fig 4-1-2 E值分布图汇总


4. 1. 3 物种分布统计

利用 blastx 将 Isoform 序列与 Nr 数据库进行比对后,取每个 Isoform 在 Nr 库中比对结果最好(E值最低)的那一条序列为对应同源序列(如有并列,取第一条) 确定同源序列所属物种,统计比对到各个物种的同源序列数量。

物种分布统计表 : Nr.species.stat.xls
Tab 4-1-2 物种分布统计表
speciesnumber
Eutrema salsugineum8906
Arabidopsis thaliana6843
Arabidopsis lyrata5081
Camelina sativa3596
Capsella rubella2731
Brassica napus2557
Brassica rapa1175
Raphanus sativus1116
Brassica oleracea998
Arabis alpina152

Fig 4-1-3 各样本物种分布统计图(只展示前十种)

4.2 COG/KOG注释
“COG/KOG”是 Cluster of Orthologous Groups of proteins(蛋白相邻类的聚簇)的缩写。构成每个 COG/KOG 的蛋白都是被假定为来自于一个祖先蛋白,并且因此或者是 orthologs 或者是 paralogs。
Orthologs 是指来自于不同物种的由垂直家系(物种形成)进化而来的蛋白,并且典型的保留与原始蛋白有相同的功能。
Paralogs是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能。
原核生物进行COG注释,真核生物进行KOG注释。
4.3 SwissProt注释
Tab 4-3-1 blast 比对 SwissProt 结果表
Query_idQuery_lengthQuery_startQuery_endSubject_idSubject_lengthSubject_startSubject_endIdentity(%)Align_lengthMismatchGapScoreE_valueSubject_annotation
Isoform000000182824048113sp|F4IVL6|GRV2_ARATH25541255291.92574182264575.40.0e+00sp|F4IVL6|GRV2_ARATH DnaJ homolog subfamily C GRV2 OS=Arabidopsis thaliana OX=3702 GN=GRV2 PE=1 SV=1
Isoform000000182824588104sp|O75165|DJC13_HUMAN22433223029.325901429403928.32.0e-268sp|O75165|DJC13_HUMAN DnaJ homolog subfamily C member 13 OS=Homo sapiens OX=9606 GN=DNAJC13 PE=1 SV=5
Isoform00000028163167908sp|F4I893|ILA_ARATH2696101269690.32637209474222.90.0e+00sp|F4I893|ILA_ARATH Protein ILITYHIA OS=Arabidopsis thaliana OX=3702 GN=ILA PE=1 SV=1
Isoform00000028163917893sp|Q92616|GCN1_HUMAN26719266731.1270717111541144.00.0e+00sp|Q92616|GCN1_HUMAN eIF-2-alpha kinase activator GCN1 OS=Homo sapiens OX=9606 GN=GCN1 PE=1 SV=6
Isoform00000028163917893sp|E9PVA8|GCN1_MOUSE26719266731.1270717121541111.30.0e+00sp|E9PVA8|GCN1_MOUSE eIF-2-alpha kinase activator GCN1 OS=Mus musculus OX=10090 GN=Gcn1 PE=1 SV=1
Isoform000000281636497788sp|Q54WR2|GCN1_DICDI2667237262429.824591577150889.01.3e-256sp|Q54WR2|GCN1_DICDI eIF-2-alpha kinase activator GCN1 OS=Dictyostelium discoideum OX=44689 GN=gcn1 PE=3 SV=1
Isoform0000002816322067869sp|Q10105|GCN1_SCHPO2670744262330.31933124998790.08.3e-227sp|Q10105|GCN1_SCHPO eIF-2-alpha kinase activator gcn1 OS=Schizosaccharomyces pombe (strain 972 / ATCC 24843) OX=284812 GN=gcn1 PE=3 SV=1
Isoform0000002816329027788sp|P33892|GCN1_YEAST2672941258731.61680106584763.11.1e-218sp|P33892|GCN1_YEAST eIF-2-alpha kinase activator GCN1 OS=Saccharomyces cerevisiae (strain ATCC 204508 / S288c) OX=559292 GN=GCN1 PE=1 SV=1
Isoform0000002816340814965sp|O94489|EF3_SCHPO10472832433.730318714154.51.8e-35sp|O94489|EF3_SCHPO Elongation factor 3 OS=Schizosaccharomyces pombe (strain 972 / ATCC 24843) OX=284812 GN=tef3 PE=1 SV=1
Isoform000000380801546948sp|F4I9T0|BCHB_ARATH260413228190.12272214104088.10.0e+00sp|F4I9T0|BCHB_ARATH BEACH domain-containing protein B OS=Arabidopsis thaliana OX=3702 GN=BCHB PE=4 SV=1

4.4 KEGG注释
KEGG(京都基因与基因组百科全书)是基因组破译方面的数据库。在后基因时代一个重大挑战是如何使细胞和有机体在计算机上完整的表达和演绎,让计算机利用基因信息对更高层次和更复杂细胞活动和生物体行为作出计算推测。为达到此目的,人们建立了一个在相关知识基础上的网络推测计算工具。在给出染色体中一套完整的基因的情况下,它可以对蛋白质交互(互动)网络在各种细胞活动起的作用作出预测。 KEGG 的 PATHWAY 数据库整合当前在分子互动网络(比如通道,联合体)的知识,KEGG的 GENES/SSDB/KO 数据库提供关于在基因组计划中发现的基因和蛋白质的相关知识,KEGG 的 COMPOUND/GLYCAN/REACTION 数据库提供生化复合物及反应方面的知识。
KEGG 是系统分析基因产物在细胞中的代谢途径以及这些基因产物的功能的数据库,利用 KEGG 可以进一步研究基因在生物学上的复杂行为。根据 KEGG 注释信息我们能进一步得到 Isoform的 Pathway 注释。
Tab 4-4-1 blast 比对 KEGG 结果表
Query_idSubject_idIdentityAlign_lengthMiss_matchGapQuery_startQuery_endSubject_startSubject_endE_valueScoreSubject_annotation
Isoform0000001ath:AT2G2689091.9257418274048113125520.0e+004575.4GRV2; DNAJ heat shock N-terminal domain-containing protein; K09533 DNAJC13; DnaJ homolog subfamily C member 13
Isoform0000001aly:931691191.9257318264048113125500.0e+004566.9dnaJ homolog subfamily C GRV2 isoform X1; K09533 DNAJC13; DnaJ homolog subfamily C member 13
Isoform0000001csat:10475258891.2257720254048122125570.0e+004544.6dnaJ homolog subfamily C GRV2 isoform X3; K09533 DNAJC13; DnaJ homolog subfamily C member 13
Isoform0000001csat:10478704991.1257420164048113125510.0e+004531.1dnaJ homolog subfamily C GRV2-like isoform X1; K09533 DNAJC13; DnaJ homolog subfamily C member 13
Isoform0000001crb:1788994590.8257221554258119725630.0e+004516.1dnaJ homolog subfamily C GRV2 isoform X1; K09533 DNAJC13; DnaJ homolog subfamily C member 13
Isoform0000001csat:10470350390.6257721564048122125550.0e+004505.7dnaJ homolog subfamily C GRV2-like; K09533 DNAJC13; DnaJ homolog subfamily C member 13
Isoform0000001brp:10382963789.6257623374108122425490.0e+004463.7dnaJ homolog subfamily C GRV2 isoform X1; K09533 DNAJC13; DnaJ homolog subfamily C member 13
Isoform0000001bna:10635845489.92565227644381221025480.0e+004463.7dnaJ homolog subfamily C GRV2 isoform X1; K09533 DNAJC13; DnaJ homolog subfamily C member 13
Isoform0000001boe:10634073089.4256924164318122325450.0e+004448.7dnaJ homolog subfamily C GRV2 isoform X1; K09533 DNAJC13; DnaJ homolog subfamily C member 13
Isoform0000001rsz:10880900489.2258224393928122425540.0e+004446.7dnaJ homolog subfamily C GRV2 isoform X1; K09533 DNAJC13; DnaJ homolog subfamily C member 13

4.5 Nr注释
Tab 4-5-1 blast 比对 Nr 结果表
Query_idQuery_lengthQuery_startQuery_endSubject_idSubject_lengthSubject_startSubject_endIdentity(%)PositiveGapAlign_lengthScoreE_valueSubject_annotation
Isoform000000182824048113OAP09465.1255412552920.950.01257347020.0KAM2 [Arabidopsis thaliana]
Isoform000000182824048113NP_180257.3255412552920.950.01257346980.0DNAJ heat shock N-terminal domain-containing protein [Arabidopsis thaliana]
Isoform000000182824258095XP_006293547.1256572555920.950.01256446840.0dnaJ homolog subfamily C GRV2 isoform X1 [Capsella rubella]
Isoform000000182824048113XP_020883985.1255212550920.950.01257346790.0dnaJ homolog subfamily C GRV2 isoform X1 [Arabidopsis lyrata subsp. lyrata] [Arabidopsis lyrata]
Isoform000000182824048122XP_010473072.1255712557920.950.01257646630.0PREDICTED: dnaJ homolog subfamily C GRV2 isoform X3 [Camelina sativa]
Isoform000000182824048122XP_019093469.1255712557920.950.01257646570.0PREDICTED: dnaJ homolog subfamily C GRV2 isoform X4 [Camelina sativa]
Isoform000000182824048122XP_019093470.1255612556920.950.01257646560.0PREDICTED: dnaJ homolog subfamily C GRV2 isoform X6 [Camelina sativa]
Isoform000000182824048113XP_010510846.1255312551920.950.01257346480.0PREDICTED: dnaJ homolog subfamily C GRV2-like isoform X1 [Camelina sativa]
Isoform000000182824048122XP_006408610.1255612556910.940.01257746120.0dnaJ homolog subfamily C GRV2 isoform X1 [Eutrema salsugineum]
Isoform000000182824048122XP_010417833.1255512555910.940.01257646030.0PREDICTED: dnaJ homolog subfamily C GRV2-like [Camelina sativa]

4.6 GO分类
根据 nr 注释信息我们能得到 GO 功能注释。Gene Ontology(简称GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表(controlled vocabulary)来全面描述生物体中基因和基因产物的属性。
GO 总共有三个 ontology,分别描述基因的分子功能(molecular function)、细胞组分(cellular component)、参与的生物过程(biological process)。 GO 的基本单位是 term(词条、节点),每个 term 都对应一个属性。
我们根据 nr 注释信息,使用 Blast2GO[3] 软件得到 Isoform 的 GO 注释信息。Blast2GO 已被其它文献引用超过 150 次,是同行广泛认可的 GO 注释软件。 得到每个 Isoform 的 GO 注释后,我们用 WEGO 软件对所有 Isoform 做 GO 功能分类统计,从宏观上认识该物种的基因功能分布特征。
Fig 4-6-1 GO 功能分类图

5 高级注释

Isoform 高级功能注释信息给出 Isoform 的 CDS 预测、Pfam 蛋白结构域预测、SMART 蛋白结构域预测、R-Gene预测(植物)、PHI 数据库注释(细菌/真菌)、蛋白质特性及各种翻译后修饰位点预测等等。

5.1 CDS 预测
CDS(Coding sequence)是一段编码蛋白产物的序列,与蛋白质的密码子完全对应。我们首先按照Nr、Swiss-Prot、KEGG 和 COG/KOG 的优先级顺序将isoform与以上蛋白库做blastx比对(evalue小于e-5),取blast比对结果中rank最高的蛋白确定为该isoform的编码区序列,然后根据标准密码子表将编码区序列翻译成氨基酸序列,从而得到该isoform编码区的核酸序列(序列方向5'->3')和氨基酸序列。最后,跟以上蛋白库都比对不上的isoform用软件ANGEL[4]预测其编码区,得到其编码区的核酸序列(序列方向5'->3')和氨基酸序列。
Tab 5-1-1 CDS预测汇总表格
ID5UTR start5UTR endCDS startCDS end3UTR start3UTR endNr-IDNr-ScoreNr-EvalueNr-annotationSwissprot-IDSwissprot-ScoreSwissprot-EvalueSwissprot-annotationKOG-Protein-or-DomainKOG-ScoreKOG-EvalueKOG-IDKOG-Function-DescriptionKO-IDKEGG-EvalueKEGG-ScoreKEGG-GenePathway
Isoform00000011403404811381148282OAP09465.147020.0KAM2 [Arabidopsis thaliana]sp|F4IVL6|GRV2_ARATH4575.40.0e+00sp|F4IVL6|GRV2_ARATH DnaJ homolog subfamily C GRV2 OS=Arabidopsis thaliana OX=3702 GN=GRV2 PE=1 SV=1At2g268904479.50.0e+00KOG1789Endocytosis protein RME-8, contains DnaJ domainK09533//DNAJC13; DnaJ homolog subfamily C member 1304575.4ath:AT2G26890--
Isoform000000217576790879098163XP_006397389.148130.0protein ILITYHIA isoform X2 [Eutrema salsugineum]sp|F4I893|ILA_ARATH4222.90.0e+00sp|F4I893|ILA_ARATH Protein ILITYHIA OS=Arabidopsis thaliana OX=3702 GN=ILA PE=1 SV=1At1g647903843.10.0e+00KOG1242Protein containing adaptin N-terminal region----------
Isoform00000031147148694869498080XP_009102748.142520.0BEACH domain-containing protein B isoform X1 [Brassica rapa]sp|F4I9T0|BCHB_ARATH4088.10.0e+00sp|F4I9T0|BCHB_ARATH BEACH domain-containing protein B OS=Arabidopsis thaliana OX=3702 GN=BCHB PE=4 SV=1At1g582301885.20.0e+00KOG1787Kinase A-anchor protein Neurobeachin and related BEACH and WD40 repeat proteins----------
Isoform00000041371372762576267989XP_020875427.141970.0histone-lysine N-methyltransferase ATXR3 [Arabidopsis lyrata subsp. lyrata] [Arabidopsis lyrata]sp|O23372|ATXR3_ARATH3360.90.0e+00sp|O23372|ATXR3_ARATH Histone-lysine N-methyltransferase ATXR3 OS=Arabidopsis thaliana OX=3702 GN=ATXR3 PE=2 SV=2At4g151802943.30.0e+00KOG1080Histone H3 (Lys4) methyltransferase complex, subunit SET1 and related methyltransferasesK22748//ATXR3; [histone H3]-lysine4 N-trimethyltransferase ATXR3 [EC:2.1.1.354]03636.3aly:9304294;ko00310//Lysine degradation//Amino acid metabolism//Metabolism
Isoform000000516465772077217953NP_001320074.138480.0ribosome 60S biogenesis amino-terminal protein [Arabidopsis thaliana]--------At4g270103678.60.0e+00KOG1791Uncharacterized conserved proteinK14861//URB1; nucleolar pre-ribosomal-associated protein 103846.2aly:9303601--
Isoform000000615253744174427827NP_001189602.144830.0zinc finger FYVE domain protein [Arabidopsis thaliana]--------At2g257303844.30.0e+00KOG1811Predicted Zn2+-binding protein, contains FYVE domainK19027//ZFYVE26; zinc finger FYVE domain-containing protein 2604236.8ath:AT2G25730--
Isoform000000712829214021417649NP_001323787.110810.0transducin family protein / WD-40 repeat family protein [Arabidopsis thaliana]--------At2g465601824.70.0e+00KOG1064RAVE (regulator of V-ATPase assembly) complex subunit RAV1/DMX protein, WD repeat superfamily----------
Isoform0000008143274328760976107684OAO99106.115030.0EMB2788 [Arabidopsis thaliana]--------At4g270101446.80.0e+00KOG1791Uncharacterized conserved proteinK14861//URB1; nucleolar pre-ribosomal-associated protein 101506.5aly:9303601--
Isoform000000918081752975307658XP_024010767.147710.0piezo-type mechanosensitive ion channel homolog isoform X1 [Eutrema salsugineum]sp|F4IN58|PIEZO_ARATH4544.60.0e+00sp|F4IN58|PIEZO_ARATH Piezo-type mechanosensitive ion channel homolog OS=Arabidopsis thaliana OX=3702 GN=At2g48060/At2g48040/At2g48050 PE=2 SV=1At2g480502724.50.0e+00KOG1893Uncharacterized conserved proteinK22128//PIEZO1_2; piezo-type mechanosensitive ion channel component 1/204615.4aly:9318211--
Isoform0000010110861087727272737646XP_024010006.136460.0mediator of RNA polymerase II transcription subunit 12 [Eutrema salsugineum]sp|H3K2Y6|MED12_ARATH3510.70.0e+00sp|H3K2Y6|MED12_ARATH Mediator of RNA polymerase II transcription subunit 12 OS=Arabidopsis thaliana OX=3702 GN=MED12 PE=1 SV=1At4g004503159.40.0e+00KOG4522RNA polymerase II transcription mediator----------

Fig 5-1-1 3UTR长度分布图 Fig 5-1-2 5UTR长度分布图

5.2 Pfam 蛋白结构域分析

Pfam(Protein families database of alignments and hidden Markov models )是一个基于多重序列比对以及隐马尔可夫模型(HMM)预测的方法而收录的大量蛋白质结构信息的数据库,被广泛用来做蛋白结构域预测及蛋白家族分析。
Pfam 包括 PfamA 和 PfamB。其中 PfamA 中所包含的蛋白结构数据都是已知并且得到验证的,每个蛋白结构域都有各自的定义(definition)。而 PfamB 中的数据是通过模型和算法预测出来的,并且未得到验证,是对 PfamA 的补充
Pfam 蛋白结构域的预测是使用 sanger 开发的 Pfam_Scan 程序测 Isoform 编码的蛋白序列后,同 Pfam 数据库进行比对(我们使用的 Pfam 版本号为 26.0), 得到Isoform 编码的蛋白结构相关注释信息。

Tab 5-2-1 Pfam 蛋白结构相关注释汇总表
seq idalignment startalignment endenvelope startenvelope endhmm acchmm nametypehmm starthmm endhmm lengthbit scoreE-valuesignificanceclanPfamA_definition
Isoform00000011173122311731223PF14237.6GYF_2Domain1505041.68.1e-111CL0673GYF domain 2
Isoform00000011541158115341585PF00226.31DnaJDomain11546343.72.3e-111CL0392DnaJ domain
Isoform0000003439610438611PF13385.6Laminin_G_3Domain215115235.41.1e-081CL0004Concanavalin A-like lectin/glucanases superfamily
Isoform0000003683958682959PF15787.5DUF4704Family2278279264.78.2e-791No_clanDomain of unknown function (DUF4704)
Isoform00000031556164815381650PF16057.5DUF4800Family15424325438.57.5e-101No_clanDomain of unknown function (DUF4800)
Isoform00000031758189317581898PF14844.6PH_BEACHDomain19510044.81e-111CL0266PH domain associated with Beige/BEACH
Isoform00000031936221219352212PF02138.18BeachFamily2276276404.42.2e-1211No_clanBeige/BEACH domain
Isoform00000041936198818531988PF00856.28SETFamily11116916940.92.7e-101No_clanSET domain
Isoform00000058538084381PF11707.8Npa1Family2338339169.41.3e-491No_clanRibosome 60S biogenesis N-terminal
Isoform00000051982217119812171PF16201.5NopRA1Family2201201150.93.2e-441No_clanNucleolar pre-ribosomal-associated protein 1

5.3 SMART 蛋白结构域分析
SMART 蛋白结构域的预测是使用 HMMER - profile hidden Markov models for biological sequence analysis(http://hmmer.org/)程序。
预测isoform 编码的蛋白序列后,同 SMART 数据库进行比对(版本号SMART 06/08/2012), 得到isoform 编码的蛋白结构相关注释信息存放在下表中。
Tab 5-3-1 SMART 蛋白结构域分析结果表
GeneIDLengthDomain_StartDomain_EndSMART_DomainE-valueScoreDomain-c-EvalueDomain-i-EvalueDomain-Score
Isoform00015581235393579AAA3.1e-39130.62.4e-192.5e-1862.9
Isoform0001558123510221213AAA3.1e-39130.64.2e-204.4e-1965.3
Isoform00015221235393579AAA5e-39129.92.4e-192.5e-1862.9
Isoform0001522123510221210AAA5e-39129.96.9e-207.2e-1964.6
Isoform00011541281412601AAA1.9e-38128.02e-182.1e-1759.9
Isoform0001154128110641255AAA1.9e-38128.02.8e-202.9e-1965.9
Isoform00012601282412601AAA2e-38128.02e-182.1e-1759.9
Isoform0001260128210651256AAA2e-38128.02.8e-202.9e-1965.9
Isoform00015831224333518AAA1e-37125.73.7e-193.9e-1862.3
Isoform000158312249891213AAA1e-37125.77.8e-198.1e-1861.2

5.4 TF(转录因子) 分析

分析的物种是植物或者动物,我们将预测的蛋白序列同相应的 TF 数据库(plant TFdb/animal TFdb)进行 hmmscan 比对。

我们将预测的 TF 按照类型分类并作图。(只画数量最多的前10个类型)
Fig 5-4-1 TF 家族分布(前10)

5.5 R-Gene 分析

若分析的物种是植物,我们将预测的蛋白序列同相应的 R-Gene 数据库(PRGdb)进行 blastp 比对。

Tab 5-5-1 R-Gene 相关注释汇总表
Unigene_IDPRGIDNameTypeSpeciesClassGenBank IDGenBank LocusDescriptionE-valueScore
Isoform0000018PRGDB00201987Bra027598Putative_R-Genes,_predicted_from_PythozomeBrassica rapaTNL------0.0 1776
Isoform0000019PRGDB00206816LOC_Os10g21950.1Putative_R-Genes,_predicted_from_PythozomeOryza sativaNL------3e-135 460
Isoform0000022PRGDB00061511disease resistance proteinPutative_R-Genes,_collected_from_NCBI_ProteinBrassica rapa subsp. pekinensisTNL227438238FJ842828Brassica rapa subsp. pekinensis isolate BrTNL10 disease resistance protein gene, complete cds.1e-60 231
Isoform0000043PRGDB00206903LOC_Os02g16090.1Putative_R-Genes,_predicted_from_PythozomeOryza sativaCN------6e-78 280
Isoform0000104PRGDB00203241Carubv10025445mPutative_R-Genes,_predicted_from_PythozomeCapsella rubellaN------0.0 3465
Isoform0000116PRGDB00201779Bra012688Putative_R-Genes,_predicted_from_PythozomeBrassica rapaTNL------0.0 1264
Isoform0000133PRGDB00206903LOC_Os02g16090.1Putative_R-Genes,_predicted_from_PythozomeOryza sativaCN------5e-79 283
Isoform0000158PRGDB00147219Bradi4g25570.1Putative_R-Genes,_predicted_from_PythozomeRicinus communisCN----Clathrin, heavy chain (best arabidopsis hit); clathrin heavy chain, putative, expressed (best rice hit)0.0 621
Isoform0000160PRGDB00160907Egrandis_v1_0.003113mPutative_R-Genes,_predicted_from_PythozomeAreca catechuN----Actin-binding FH2 (Formin Homology) protein (best arabidopsis hit)2e-105 352
Isoform0000169PRGDB00147219Bradi4g25570.1Putative_R-Genes,_predicted_from_PythozomeRicinus communisCN----Clathrin, heavy chain (best arabidopsis hit); clathrin heavy chain, putative, expressed (best rice hit)0.0 617

我们将预测的 R-Gene 按照类型分类并作图。(只画数量最多的前10个类型)分类说明请参考 :http://prgdb.crg.eu/wiki/Category:Classes
Fig 5-5-1 R-Gene分类(前10)

5.6 TMHMM 跨膜螺旋结构预测
TMHMM跨膜螺旋结构预测,是使用TMHMM2.0 (http://www.cbs.dtu.dk/services/TMHMM/)来预测蛋白的跨膜螺旋结构,寻找可能的膜蛋白。根据蛋白氨基酸序列预测二级螺旋结构,并预测其螺旋结构氨基酸的亲水性与疏水性,来确定跨膜结构螺旋区域(因膜磷脂环境为疏水环境,而膜内外为亲水环境)。
Tab 5-6-1 TMHMM 预测结果表
Unigene_IDLengthExpAAFirst60PredHelTopology
Isoform00004151088.860.010o
Isoform00005101000.020.000o
Isoform000069211334.5127.681i13-35o
Isoform00041751020.000.000o
Isoform00043581020.000.000o
Isoform00044241020.000.000o
Isoform00044341020.000.000o
Isoform00044791020.000.000o
Isoform00045211020.000.000o
Isoform00045354720.000.000o

5.7 SignalP 信号肽结构预测
SignalP信号肽结构预测,是使用SignalP 4.1 Server (http://www.cbs.dtu.dk/services/SignalP/)神经网络方法来预测原核生物和真核生物的蛋白信号肽剪切位点。
Tab 5-7-1 SignalP 预测结果表
Unigene_IDCleavage_SiteCmaxC-posYmaxY-posSmaxS-posSmeanDIf_SignalP
Isoform002540024-250.331250.457250.767190.5960.512Y
Isoform003470529-300.718300.732300.986130.7980.768Y
Isoform000000979-800.817800.813800.922750.5150.694Y
Isoform0000014141-1420.7151420.7091420.8621430.2510.526Y
Isoform000004075-760.778580.736760.853680.3310.574Y
Isoform000010449-500.609500.691500.907420.4690.602Y
Isoform000014144-450.713450.704450.937970.3180.550Y
Isoform000017058-590.7411170.657590.777510.3790.546Y
Isoform0000194269-2700.7682700.7352700.8912650.2430.538Y
Isoform0000231108-1090.7441090.6981090.7821020.2190.506Y

5.8 蛋白O-GlcNAc糖基化位点预测
蛋白O-GlcNAc糖基化位点预测,是使用NetOGlyc 4.0 Server(http://www.cbs.dtu.dk/services/NetOGlyc/)神经网络方法预测哺乳动物蛋白的O-GlcNAc糖基化位点。蛋白质的O-GlcNAc糖基化在细胞的生长发育、疾病的发生发展中起着重要的调控作用。
Tab 5-8-1 NetOGlyc 预测结果表
Unigene_IDLengthOglyc_SiteS_numT_numS_and_T_numOglyc_Site_num
Isoform00019511035--108501580
Isoform0001952581--6622880
Isoform00019531012--95511460
Isoform00019541187794T119471661
Isoform0001955547--2929580
Isoform0001956862--100281280
Isoform0001957549--4817650
Isoform0001958110824S,26S,27S,28S,29S,30S,31S,32S,34S,37S,38S,42T,43T853912413
Isoform00019591009476T102351371
Isoform0001960819--61441050

5.9 ProP 弗林蛋白酶裂解位点预测
ProP 弗林蛋白酶裂解位点预测,是使用ProP 1.0 Server(http://www.cbs.dtu.dk/services/ProP/)神经网络方法预测真核蛋白中的弗林蛋白酶酶切位点——精氨酸和赖氨酸前肽剪切位点。弗林蛋白酶是一种广泛参与前体蛋白切割的内切蛋白酶,能对许多重要的多肽和蛋白的前体进行剪切加工,使之具有生物活性。
Tab 5-9-1 ProP 预测结果表
Unigene_IDLengthProp_SiteR_numK_numR_and_K_numProp_Site_num
Isoform0000001257042R,767R,778R,1272R149922414
Isoform00000022611152R,2193R1391402792
Isoform000000322671848R1361112471
Isoform00000042418293R,541R,976R,1445R,2409R1871773645
Isoform00000052552538R,2228R1091662752
Isoform00000062463697R,2043R1521212732
Isoform0000007704--3033630
Isoform00000081094615K52691211
Isoform00000092483--131932240
Isoform0000010206214K,697R1441042482

6 结构分析

6.1 串联重复单元(SSR)
Tab 6-1-1 SSR 类型统计表
IDSSR nr.SSR typeSSRsizestartend
Isoform00000101p3(TCT)7216989
Isoform00000141p4(TTCT)4163146
Isoform00000181p3(ATG)72169696989
Isoform00000211c(TC)6ccttcccttc(CT)634155188
Isoform00000231p2(GA)714344357
Isoform00000251p2(TC)918187204
Isoform00000271p3(GCA)618397414
Isoform00000281c(GCAACA)4tcctccaccgctttc(GCA)657343399
Isoform00000301p3(TCT)515209223
Isoform00000321p3(ATG)82461466169

我们将检测到的 SSR 按照短串联重复单元的类型分类并作图
Fig 6-1-1 不同串联重复单元类型的 SSR 在总 SSR 中所占比例的统计图 Fig 6-1-2 SSR 分布图
X 坐标为 SSR 类型,Y 坐标数值是 m 个碱基重复 n 次发生的次数,具体重复的次数应按照颜色与图例对 应,Z 坐标是 SSR 数目

根据找到的SSR信息使用 primer3( version 1.1.4 )在SSR序列两侧进行引物设计。对于每一个可设计引物的SSR位点我们提供三种引物设计结果。
6.2 lncRNA分析
对没有注释到四大数据库的全长转录序列进行lncRNA分析。使用cnci软件[5]和CPC软件[6]进行编码能力预测,取两个软件都预测为"非编码"的结果作为最终的lncRNA结果。
Fig 6-2-1 CNCI和CPC预测结果的维恩图

Tab 6-2-1 lncRNA结果统计表
total isoformthe number of mRNAthe number of lncRNA
3494934728221

为了更好地在进化层面对lncRNA进行注释,我们用INFERNAL通过多序列比对,二级结构及协方差模型,根据保守序列及二级结构对所有预测lncRNA进行分类。
Tab 6-2-2 lncRNA家族预测结果
Family_NameFamily_AccessionLncRNAStrandE-valueScore

6.3 可变剪切分析
使用软件Cogent[7]组装出编码序列,然后以组装出来的序列作为参考。使用软件SUPPA[8]进行可变剪切分析[9]
Fig 6-3-1 转录本数目统计 Fig 6-3-2 可变剪切类型统计
该图统计基因含有isoform数目的个数。纵坐标表示含有多少个isoform,横坐标表示含有对应数目isoform的基因个数以及百分比。 横坐标表示可变剪切的类型,纵坐标表示该种可变剪切类型的数量

Tab 6-3-1 可变剪切结果表格
seqnameTypeposStrandtotal_transcripts
COGENT005184A3204-310:204-313+Isoform0002774,Isoform0002939,Isoform0002041,Isoform0002887,Isoform0001956,Isoform0002081
COGENT004998A3122-183:122-185+Isoform0001965,Isoform0002447
COGENT004998A3122-179:122-185+Isoform0002370,Isoform0002447
COGENT004998A3122-179:122-183+Isoform0002370,Isoform0001965
COGENT004998A3142-196:136-196-Isoform0023569,Isoform0030312,Isoform0031625,Isoform0022601
COGENT003699A32397-2501:2397-2514+Isoform0003115,Isoform0001689,Isoform0002203,Isoform0002785,Isoform0002297,Isoform0003359,Isoform0004497,Isoform0005387,Isoform0005340,Isoform0006115,Isoform0011939,Isoform0007230,Isoform0008149,Isoform0010159,Isoform0014957,Isoform0019486,Isoform0021497,Isoform0002003
COGENT003698A32561-2665:2561-2678+Isoform0001728,Isoform0003115,Isoform0001689,Isoform0002203,Isoform0001568,Isoform0003517,Isoform0001334,Isoform0002785,Isoform0002297,Isoform0003359,Isoform0004497,Isoform0010098,Isoform0005387,Isoform0005340,Isoform0006115,Isoform0011939,Isoform0007230,Isoform0008149,Isoform0010159,Isoform0014957,Isoform0019486,Isoform0021497,Isoform0026778,Isoform0002003
COGENT004797A31271-1356:1271-1362+Isoform0002789,Isoform0002125,Isoform0002285,Isoform0002682,Isoform0004505,Isoform0005260,Isoform0007591,Isoform0002353,Isoform0002607,Isoform0002968,Isoform0009855,Isoform0011501
COGENT004799A31271-1356:1271-1362+Isoform0002789,Isoform0004505,Isoform0002607,Isoform0002331
COGENT004902A31005-1159:1005-1181+Isoform0003293,Isoform0002537,Isoform0004364,Isoform0002526

Gmap 比对结果展示(只展示10个):
  • COGENT005184
  • COGENT004998
  • COGENT003699
  • COGENT003698
  • COGENT004797
  • COGENT004799
  • COGENT004902
  • COGENT007618
  • COGENT005268
  • COGENT005326

Fig 6-3-3


7 目录结构


├── 1.smrtlink
│   ├── CCS.stat.xls                                                                     CCS分析结果统计表格
│   ├── cdhit.stat.xls                                                                   
│   ├── *ccs_npasses_hist.pdf(png)                                                       CCS passes分布图
│   ├── *ccs_readlength_hist.pdf(png)                                                    CCS长度分布图
│   ├── *consensus_isoforms_readlength_hist.pdf(png)                                     一致性序列长度分布图
│   ├── *fulllength_nonchimeric_readlength_hist.pdf(png)                                 全长非杂合序列长度分布图
│   ├── *hq_lq_isoforms_avgqv_hist.pdf(png)                                              Hq、Lq isoforms平均质量分布图
│   ├── classify.pie.pdf(png)                                                            Reads分类图
│   ├── classify.stat.xls                                                                Classify分析结果统计表
│   ├── cluster.stat.xls                                                                 Cluster分析结果统计表
│   ├── correction.stat.xls                                                              二代矫正三代之后的统计表格
│   ├── isoform_length_distribution.pdf(png)                                             ISOseq 序列 长度分布图
│   ├── rawdata.len.stat.pdf(png)                                                        原始数据长度分布图
│   ├── rawdata_stat.xls                                                                 原始数据统计表
│   └── *_isoforms.fasta                                                                 ISOseq 序列
├── 2.basic
│   ├── 4_database
│   │   ├── 4_database_anno.stat.txt                                                     四大数据库注释统计结果表
│   │   └── venn.svg(png)                                                                四大数据库注释的 Venn 图
│   ├── All_Unigene.basic.annotation.xls                                                 注释结果汇总表
│   ├── COG_KOG
│   │   ├── *.blast.kog.xls                                                              KOG/COG 数据库的blast比对结果
│   │   ├── *.kog.class.annot.xls                                                        KOG/COG 分类文件
│   │   ├── *.kog.gene.annot.xls                                                         KOG/COG 注释
│   │   ├── *.kog.pdf(png)                                                               KOG/COG 分类图
│   ├── evalue
│   │   ├── evalue.KEGG.stat.xls                                                         KEGG 数据库注释中的 E 值分布表
│   │   ├── evalue.KEGG.stat.xls.pie.pdf(png)                                            KEGG 数据库注释中的 E 值分布图
│   │   ├── evalue.KOG.stat.xls                                                          KOG 数据库注释中的 E 值分布表
│   │   ├── evalue.KOG.stat.xls.pie.pdf(png)                                             KOG 数据库注释中的 E 值分布图
│   │   ├── evalue.Nr.stat.xls                                                           Nr 数据库注释中的 E 值分布表
│   │   ├── evalue.Nr.stat.xls.pie.pdf(png)                                              Nr 数据库注释中的 E 值分布图
│   │   ├── evalue.Swissprot.stat.xls                                                    Swissprot 数据库注释中的 E 值分布表
│   │   ├── evalue.Swissprot.stat.xls.pie.pdf(png)                                       Swissprot 数据库注释中的 E 值分布图
│   ├── GO
│   │   ├── *.gene2GO.xls                                                                GO 注释                                                                
│   │   ├── *.GO2gene.xls                                                                GO 分类文件
│   │   └── *.GO.svg(png)                                                                GO 分类图
│   ├── KEGG
│   │   ├── *.blast.kegg.xls                                                             KEGG 数据库的blast比对的结果
│   │   ├── *.htm                                                                        Parhway 分析结果网页报告
│   │   ├── *.ko.txt                                                                     Isoform ID 对应 KO 号列表
│   │   ├── *_map                                                                        Parhway 代谢通路图(文件夹)
│   │   └── *.path.xls                                                                   Pathway 列表
│   ├── Nr
│   │   └── *.blast.Nr.xls                                                               Nr 数据库的blast比对的结果
│   ├── Nr.species.stat.xls                                                              物种分布统计表
│   ├── Nr.species.stat.xls.svg(png)                                                     物种分布统计图
│   └── Swissprot
│       └── *.blast.swsp.xls                                                             Swissprot 数据库的blast比对的结果
├── 3.advance
│   ├── 1.CDS
│   │   ├── 3UTR_length_distribution.pdf(png)                                            3'utr 长度分布图 
│   │   ├── 5UTR_length_distribution.pdf(png)                                            5'utr 长度分布图
│   │   ├── *cds.fa                                                                      预测的cds系列
│   │   ├── *pep.fa                                                                      蛋白序列
│   │   ├── *utr.fa                                                                      utr 序列
│   │   └── *.structure.xls                                                              ISOseq 序列的结构
│   ├── 2.Pfam
│   │   └── *.protein.pfamA.xls                                                          Pfam 蛋白结构相关注释汇总表
│   ├── 3.SMART
│   │   └── *.protein.SMART.xls                                                          SMART 蛋白结构相关注释汇总表
│   │   ├── *.gene_tf.xls                                                                TF 相关注释统计表
│   │   ├── *.head10.TF.pdf(png)                                                         TF统计图
│   │   ├── *.TF.class.xls                                                               TF 分类统计表
│   │   ├── *.TF.pdf(png)
│   ├── 5.Rgene
│   │   ├── RGENE.class.xls                                                              R-Gene 分类统计表
│   │   ├── *.protein.RGENE.pdf(png)                                                     R-Gene 分类统计图
│   │   └── *.protein.RGENE.xls                                                          R-Gene 相关注释统计表
│   ├── 6.tmhmm
│   │   └── *.protein.tmhmm.xls                                                          TMHMM 注释表 
│   ├── 7.SignalP
│   │   └── *.protein.SignalP.xls                                                        SignalP 注释表
│   ├── 8.netOglyc
│   │   └── *.protein.netOglyc.xls                                                       netOglyc 注释表
│   └── 9.prop
│       └── *.protein.prop.xls                                                           prop 注释表
├── 4.structure
│   ├── 1.SSR
│   │   ├── *.misa.xls                                                                   SSR 结果表 
│   │   ├── *.primer.xls                                                                 SSR 引物设计表格
│   │   ├── *.statistics.classify.txt                                                    SSR 分类表
│   │   ├── *.statistics.drawSVG.svg(png)                                                SSR 分布图
│   │   ├── *.statistics.drawSVG.txt                                                     SSR 分布图所用的统计数据
│   │   ├── *.statistics.SSR.pdf (png)                                                   SSR 分类图
│   │   └── *.statistics.totality.txt                                                    SSR 类型统计表
│   ├── 2.LncRNA
│   │   ├── family.xls                                                                   lncRNA家族分析
│   │   ├── lncRNA.fa                                                                    lncRNA序列
│   │   ├── venn.svg(png)                                                                cnci和cpc注释的 Venn 图
│   │   └── lncRNA_stat.xls                                                              lncRNA 统计汇总表 
│   └── 3.AS
│       ├── AS_grap                                                                      可变剪切图片
│       ├── AS.stat.pdf(png)                                                             可变剪切类型统计图 
│       ├── AS.stat.xls                                                                  可变剪切类型统计表 
│       ├── AS.xls                                                                       可变剪切类型表格
│       ├── cogent.cdhit.fa                                                              cogent 组装的序列
│       ├── gmap.out.filter.gtf                                                          ISOseq 比对cogent组装序列的gff 表格
│       ├── isoform.stat.pdf(png)                                                        isoform 统计图
│       └── isoform.stat.xls                                                             isoform 统计表
├── index.html
└── src

8 参考文献

9 附录



帮助文档