Isoseq_help_v1.0.html 说明文档

全长转录组简介

三代全长转录组测序和二代转录组测序的区别

        大部分基因都不符合“一基因一转录本”的模式,基因往往存在多种剪切形式。通过二代测序,可以很准确地进行基因的表达及定量的研究,但是受限于读长的限制,不能得到全长转录本的信息。
        基于二代测序平台的转录组产品,首先是把RNA打成小的短片断进行测序,然后再通过生物信息的方法进行拼接。但是基于二代测序平台的转录组,由于读长的限制(PE150),在转录本组装的过程中会存在较多的嵌合体,并且不能准确地得到完整转录本的信息,从而会大大降低表达量、可变剪接、基因融合等分析的准确性。下图是二代和三代转录组测序原理及读长比对:




二代和三代转录组对比
分析内容二代测序三代测序
建库策略一个文库多级大片段文库
是否组装
差异表达基因
可变剪切有局限
融合基因有局限
正反义链需要链特异性直接测得

        从上述可以看出,两种转录组测序技术互有优劣势,所以建议二+三代转录组测序技术同时使用,保证结构准确性、序列完整性及序列表达量准确性。

原始数据统计表
表头属性说明
Sample样品名称
total base(bp)总碱基数
subreads numbersubreads数目
average lengthsubreads平均长度
N50subreads N50*

* N50: 将所有subreads从大到小排序,并依次相加,当累加到所有subreads总长度的50%时, 该subread的长度即为所有subreads的N50。

CCS

  • Subread:指原始序列中的每个子序列,不包括adapter序列。如下示意图。
  • CCS(Circular Consensus Sequence):指原始序列中的所有subreads校正后得到的cDNA序列。
  • Full passes:一个Full passes指原始序列中的一条subread两端均含有 Adapter,一个原始序列的Full passes数目指在该序列中文库cDNA序列被完整测到的次数。

  • 图3-2 Subreads, CCS示意图

    CCS分析结果表
    表头属性说明
    Sample样品名称
    Number of readsCCS reads数量
    Number of CCS basesCCS碱基数量
    CCS Read Length (mean)CCS Read平均长度
    Number of Passes (mean)平均full Pass数量

    获取FLNC

  • FL:full-length reads,全长序列。指包含了5’ primer, 3’ primer和poly(A)的ccs序列。
  • FLNC:full-length non-contatemer,全长非嵌合序列,是指去除了多联体的全长序列
  • 多联体:是指一条reads中包含了两条或以上转录本序列,可能在文库制备阶段或PCR反应中产生。
  • Classify分析结果表
    表头属性说明
    Sample样品名称
    CCS reads number过滤后的CCS序列数量
    FLNC reads numberFLNC序列数量
    Percentage of FLNC in CCSFLNC占CCS序列百分比
    Mean length of FLNCFLNC平均长度

    Reads聚类和校正

    图3-5 Reads聚类与校正示意图

    Cluster分析结果表
    表头属性说明
    Number of polished high-quality isoforms经校正的高质量序列数量
    Number of polished low-quality isoforms经校正的低质量序列数量

    * 高质量序列是指准确度大于99%的序列

    转录本的校正

    使用LoRDEC软件进行转录本校正,LoRDEC采用混合策略,需要使用两组数据:参考reads(二代短reads)、PacBio长reads。通过读取短reads,建立de Bruijn图,针对长reads中的错误区域寻找校正序列,详细介绍请参考:http://www.atgc-montpellier.fr/lordec/

    Total number校正后序列数量
    Total length (bp)总碱基数
    Maximum Length (bp)最长序列碱基数
    Minimum Length (bp)最短序列碱基数
    Average Length (bp)序列平均碱基数
    N50 LengthN50的长度
    GC contentGC含量

    序列去冗余

    去冗余之后isoform统计表说明:

    Total numberisoform序列数目
    Total length (bp)isoform序列总长度
    Maximum Length (bp)最长isoform的长度
    Minimum Length (bp)最短isoform的长度
    Average Length (bp)isoform平均长度
    N50 LengthN50的长度
    GC contentGC含量

    基本注释

    四大数据库注释统计表:

    Total Isoform全长转录本总数
    Nr能注释到Nr数据库的全长转录本数
    Swissport能注释到Swissport数据库的全长转录本数
    KOG能注释到KOGt数据库的全长转录本数
    Kegg能注释到Kegg数据库的全长转录本数
    annotation gene有注释的全长转录本的数目
    without annotation gene number没有注释的全长转录本总数

    注释结果汇总表各列含义如下所示:

    geneIDGossypium_australe-Isoform序列的 ID 号
    SymbolSymbol 号
    Nr-IDblast 比对到 Nr 数据库中序列名
    Nr-Scoreblast 比对到 Nr 数据库的 Score
    Nr-Evalueblast 比对到 Nr 数据库的 Evalue
    Nr-annotationNr 序列的描述
    Swissprot-IDblast 比对到 Swissprot 数据库中序列名
    Swissprot-Scoreblast 比对到 Swissprot 数据库的 Score
    Swissprot-Evalueblast 比对到 Swissprot 数据库的 Evalue
    Swissprot-annotationSwissprot 序列的描述
    COG/KOG-Protein-or-Domainblast 比对到 COG/KOG 数据库中的蛋白或结构域
    COG/KOG-Scoreblast 比对到 COG/KOG 数据库的 Score
    COG/KOG-Evalueblast 比对到 COG/KOG 数据库的 Evalue
    COG/KOG-IDCOG/KOG 的 ID
    COG/KOG-Function-DescriptionCOG/KOG 功能描述
    KO-IDKO 的 ID及注释
    KEGG-Evalueblast 比对到 KEGG 数据库的 Evalue
    KEGG-Scoreblast 比对到 KEGG 数据库的 Score
    KEGG-Geneblast 比对到 KEGG 数据库中的序列名
    PathwayPathway
    GO-BiologicalProcessGO生物过程
    GO-MolecularFunctionGO分子功能
    Go-CellularComponentGO细胞组分


    blast比对各个数据库结果表各列含义如下所示:

    Query_idIsoform序列的 ID 号
    Subject_id比对到数据库中序列名
    Identity比对的identity
    Align_length比对上的长度
    Miss_match比对的错配数
    GapGap的比例
    Query_start比对上的部分在 Isoform上的起始位置
    Query_end比对上的部分在 Isoform上的终止位置
    Subject_start比对上的部分在数据库序列上的起始位置
    Subject_end比对上的部分在数据库序列上的终止位置
    E_value比对的Evalue
    Score比对的分值
    Subject_annotation数据库序列的描述

    物种分布统计表各列含义如下所示:

    Species物种名称
    Isoform Num与物种同源的 Isoform 数目



    COG/KOG


    “COG/KOG”是 Cluster of Orthologous Groups of proteins(蛋白相邻类的聚簇)的缩写。构成每个 COG/KOG 的蛋白都是被假定为来自于一个祖先蛋白,并且因此或者是 orthologs 或者是 paralogs

    Orthologs 是指来自于不同物种的由垂直家系(物种形成)进化而来的蛋白,并且典型的保留与原始蛋白有相同的功能

    Paralogs是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能



    KOG/COG 分类表表各列含义如下:

    CodeCOG/KOG 功能代号
    Functional-CategoriesCOG/KOG 功能分类
    Gene-NumberIsoform在各 COG/KOG 功能分类的数量
    GenesIsoform在各 COG/KOG 功能分类的序列ID


    KOG/COG注释表表各列含义如下:

    GeneIsoform序列的 ID 号
    Protein-or-Domain比对上的蛋白或结构域
    E-Valueblast 比对的 Evalue
    COG/KOG-IDCOG/KOG 的 ID
    Function-Description功能描述
    CodeCOG/KOG 功能代号
    Functional-CategoriesCOG/KOG 功能分类


    KEGG


    KEGG(京都基因与基因组百科全书)是基因组破译方面的数据库。在后基因时代一个重大挑战是如何使细胞和有机体在计算机上完整的表达和演绎,让计算机利用基因信息对更高层次和更复杂细胞活动和生物体行为作出计算推测。为达到此目的,人们建立了一个在相关知识基础上的网络推测计算工具。在给出染色体中一套完整的基因的情况下,它可以对蛋白质交互(互动)网络在各种细胞活动起的作用作出预测。 KEGG 的 PATHWAY 数据库整合当前在分子互动网络(比如通道,联合体)的知识,KEGG 的 GENES/SSDB/KO 数据库提供关于在基因组计划中发现的基因和蛋白质的相关知识,KEGG 的 COMPOUND/GLYCAN/REACTION 数据库提供生化复合物及反应方面的知识。

    KEGG 是系统分析基因产物在细胞中的代谢途径以及这些基因产物的功能的数据库,利用 KEGG 可以进一步研究基因在生物学上的复杂行为。根据 KEGG 注释信息我们能进一步得到 Unigene的 Pathway 注释。


    KEGG 注释表各列含义如下:

    Pathway通路名
    Count (*)注释到该通路的基因的数目
    Pathway IDKEGG 数据库中的 Pathway ID
    Genes注释到该 Pathway 的基因
    KOs属于该 Pathway 的 KEGG Orthology


    GO


    根据 nr 注释信息我们能得到 GO 功能注释。Gene Ontology(简称GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表(controlled vocabulary)来全面描述生物体中基因和基因产物的属性。

    GO 总共有三个 ontology,分别描述基因的分子功能(molecular function)、细胞组分(cellular component)、参与的生物过程(biological process)。

    GO 的基本单位是 term(词条、节点),每个 term 都对应一个属性。GO 功能分析一方面给出差异表达基因的 GO 功能分类注释;另一方面给出差异表达基因的 GO 功能显著性富集分析。

    我们根据 nr 注释信息,使用 Blast2GO软件得到 Isoform的 GO 注释信息。Blast2GO 已被其它文献引用超过 150 次,是同行广泛认可的 GO 注释软件。

    得到每个 Isoform的 GO 注释后,我们用 WEGO 软件对所有 Isoform做 GO 功能分类统计,从宏观上认识该物种的基因功能分布特征。



    GO 注释表各列含义如下:

            geneID             序列的 ID 号
              GO               GO ID



    GO 分类表各列含义如下:

    OntologyGO本体的类别 (biological_process 或 cellular_component 或 molecular_function)
    ClassGO 条目
    number_of_*Isoform在注释到各 GO 条目 中的数量
    genes_of_*注释到各 GO 条目的 IsoformID

    GO分类图示例


    该图根据 GO分类表对 Isoform的 GO 注释进行统计,横坐标代表 GO 三个 ontology:分子功能(molecular function)、细胞组分(cellular component)、参与的生物过程(biological process)的更细一级分类;纵坐标代表每个分类条目所对应的基因数目。由于一个基因常常会有多个不同功能,因此同一个基因会在不同分类条目下出现,每个柱状图统计相互独立。



    CDS 预测

    CDS预测汇总表格说明

    IDisoform ID
    5UTR start5'UTR 的开始位点
    5UTR end5’UTR 的结束位点
    CDS startCDS 的开始位点
    CDS endCDS 的结束位点
    3UTR start3'UTR 的开始位点
    3UTR end3'UTR 的结束位点
    SymbolSymbol 号
    Nr-IDblast 比对到 Nr 数据库中序列名
    Nr-Scoreblast 比对到 Nr 数据库的 Score
    Nr-Evalueblast 比对到 Nr 数据库的 Evalue
    Nr-annotationNr 序列的描述
    Swissprot-IDblast 比对到 Swissprot 数据库中序列名
    Swissprot-Scoreblast 比对到 Swissprot 数据库的 Score
    Swissprot-Evalueblast 比对到 Swissprot 数据库的 Evalue
    Swissprot-annotationSwissprot 序列的描述
    COG/KOG-Protein-or-Domainblast 比对到 COG/KOG 数据库中的蛋白或结构域
    COG/KOG-Scoreblast 比对到 COG/KOG 数据库的 Score
    COG/KOG-Evalueblast 比对到 COG/KOG 数据库的 Evalue
    COG/KOG-IDCOG/KOG 的 ID
    COG/KOG-Function-DescriptionCOG/KOG 功能描述
    KO-IDKO 的 ID及注释
    KEGG-Evalueblast 比对到 KEGG 数据库的 Evalue
    KEGG-Scoreblast 比对到 KEGG 数据库的 Score
    KEGG-Geneblast 比对到 KEGG 数据库中的序列名
    PathwayPathway
    GO-BiologicalProcessGO生物过程
    GO-MolecularFunctionGO分子功能
    Go-CellularComponentGO细胞组分

    可变剪切分析

    Cogent

    Cogent (COding GENome reconstruction Tool), 是一款在无参考基因组的情况下,寻找基因家族并重构编码基因序列的工具。具体方法如下图所示:

    第一步:Cogent软件读取高质量的full-length non- chimeric (FLNC)序列
    第二步:Cogent软件根据FLNC序列的K-mer相似性(K-mer=30,相似度=0.95,K-mer similarity>95%)将FLNC序列分割成基因家族,每个基因家族包含一条或多条FLNC序列
    第三步:同一个基因家族的FLNC序列构建最长最全转录本。
    例如:一个基因家族中有3条FLNC序列,第一条有1,2,3号外显子,第二条有1,3,4号外显子,第三条有1,4号外显子,那么重构的这个基因家族的的最长最全转录本包含有1,2,3,4四个外显子,原本的三条FLNC序列去掉,保留最长最全的这个转录本作为参考序列。

    组装出参考序列后,使用软件SUPPA进行可变剪切分析。SUPPA是一款能够进行可变剪切事件分类和差异可变剪切表达分析的软件。具体介绍请参考:https://github.com/comprna/SUPPA

    可变剪切表格解析

    SUPPA对可变剪切事件分为7类::

    可变剪切位点信息解析:


    可变剪切表格解析

    seqnameCogent 组装出来的序列ID
    Type可变剪切类型
    pos可变剪切位点信息
    Strand正负链
    total_transcripts发生可变剪切的全部转录本


    串联重复单元(SSR)


    我们按照以下配置参数使用软件 MISA(http://pgrc.ipk-gatersleben.de/misa/)对转录组的所有 Isoform进行搜索,寻找 Isoform中的 SSR :

        配置参数信息:

            definition ( unit_size,min_repeats ) :        2-6 3-5 4-4 5-4 6-4

            interruptions ( max_difference_between_2_SSRs ) :        100

    备注:

        1)(n,m): n,串联重复单元的长度;m,最小重复数;例如:2-6说明对于2个核苷酸的重复单元,需要至少6个重复才会被认为是SSR

        2)interruptions:如果两个SSR序列的距离短于100bp,就会被合并当做一个SSR标记


    SSR引物设计汇总表各列含义:

    IDIsoform编号
    SSR nr.对于 Isoform的 SSR 序号,如 2,表示该 SSR 是此 Isoform上的第 2 个 SSR
    SSR typeSSR 类型,如 P3,表示重复拷贝数为 3,c 表示该 SSR 标记序列中的短串联重复序列不止一条
    SSR短串联重复序列
    size序列的长度
    startSSR 序列在 Isoform上的起始位置
    endSSR 序列在 Isoform上的终止位置
    FORWARD PRIMER1 (5'-3')正向引物 1
    Tm (°C)正向引物的 Tm 值
    size正向引物的长度
    REVERSE PRIMER1 (5'-3')反向引物 1
    Tm (°C)反向引物的 Tm 值
    size反向引物的长度
    PRODUCT1 size (bp)引物扩增产物的长度
    ......另外两对引物的设计结果


    结构域分析(Pfam)


    Pfam(Protein families database of alignments and hidden Markov models )是一个基于多重序列比对以及隐马尔可夫模型(HMM)预测的方法而收录的大量蛋白质结构信息的数据库,被广泛用来做蛋白结构域预测及蛋白家族分析。

    Pfam 包括 PfamA 和 PfamB。其中 PfamA 中所包含的蛋白结构数据都是已知并且得到验证的,每个蛋白结构域都有各自的定义(definition)。而 PfamB 中的数据是通过模型和算法预测出来的,并且未得到验证,是对 PfamA 的补充。


    Pfam 蛋白结构相关注释汇总表各列含义:

    seq idIsoform的编号
    alignment startIsoform编码蛋白序列比对的结构域起始位置
    alignment endIsoform编码蛋白序列比对的结构域终止位置
    envelope startHMM 模型预测的 Isoform编码蛋白序列的结构域起始位置
    envelope endHMM 模型预测的 Isoform编码蛋白序列的结构域终止位置
    hmm accIsoform编码蛋白序列对应结构的 HMM 在 Pfam 中的编号
    hmm nameIsoform编码蛋白序列对应结构的 HMM 在 Pfam 中的名称
    typeIsoform编码蛋白序列匹配到 Pfam 数据库中对应结构的分类水平,蛋白家族或者结构域
    hmm start数据库中匹配序列的起始位置
    hmm end数据库中匹配序列的终止位置
    hmm length数据库中匹配序列的长度
    bit score根据比对和 HMM 模型得出的 Isoform编码蛋白序列结构的评分
    E-value比对注释的假阳性率
    significanceIsoform编码蛋白序列在数据库中匹配结构的数目
    clanPfam 数据库中按照蛋白质序列,结构以及 HMM 文件而分成的类群
    PfamA_definition查询序列对应结构在 PfamA 中的名称


    结构域分析(SMART)


    SMART 蛋白结构相关注释汇总表各列含义:

    GeneIDIsoform的编号
    LengthIsoform的长度
    Domain_StartIsoform上该 SMART Domain 的起始位置
    Domain_EndIsoform上该 SMART Domain 的终止位置
    SMART_DomainSMART Domain 名称
    E-valueSequence E-value
    ScoreSequence Bit Score
    Domain-c-EvalueDomain Conditional E-value
    Domain-i-EvalueDomain Independent E-value
    Domain-ScoreDomain Bit Score


    TF 转录因子分析


    TF 相关注释汇总表各列含义:

    gene_idIsoform的编号
    TF_FamilyTF 家族


    R-Gene 分析


    Rgene 相关注释汇总表各列含义:

    Unigene_IDIsoform的编号
    PRGIDPRG 数据库编号
    NameR-Gene 名称
    TypeR-Gene 类型
    SpeciesR-Gene 来源物种
    ClassR-Gene 分类
    GenBank IDGenBank ID
    GenBank LocusGenBank Locus
    Description功能描述
    E-valueE-value
    ScoreBit Score


    lncRNA 分析

    lncRNA结果统计表说明:

    Sample样本名
    total isoformisoform 总数
    the number of mRNAmRNA的数目
    the number of lncRNA预测到的lncRNA数目
    lncRNA家族预测结果表格说明:
    Family_Name在Rfam数据库中家族的名字
    Family_Accession家族的编号
    LncRNAlncRNA的ID
    Strand正负链
    E-value比对的的E值
    ScoreInfernal给出的比对的分值

        蛋白相关分析补充


    TMHMM 结果表各列含义(详细说明请参见 http://www.cbs.dtu.dk/services/TMHMM-2.0/TMHMM2.0.guide.html#output):

    Unigene_IDUnigene的编号
    Length该Unigene编码的蛋白氨基酸序列的长度
    ExpAA预测的跨膜螺旋氨基酸数目。如果这个数值大于18,则该蛋白很可能是一个跨膜蛋白,或者含有信号肽结构
    First60蛋白N端前60个氨基酸中预测为跨膜螺旋氨基酸的数目。预测N端的跨膜螺旋结构为信号肽的可能性
    PredHel通过N-best预测的跨膜螺旋数量
    Topology由N-best拓扑预测的最终跨膜结果。"i"表示预测该蛋白在膜内;"o"表示预测该蛋白在膜外;"i95-117o165-187i"表示从1-94号氨基酸肽链在膜内,95-117号氨基酸肽链为跨膜螺旋结构,118-164号氨基酸肽链在膜外,165-187号氨基酸肽链为跨膜结构

    SignalP 结果表各列含义(详细说明请参见 http://www.cbs.dtu.dk/services/SignalP/output.php):

    Unigene_IDUnigene的编号
    Cleavage_Site预测的信号肽剪切位点
    Cmax最大C值。C值:剪切位点得分。每个氨基酸都会有一个C值,在剪切位点处C值最高
    C-pos最大C值位置
    Ymax最大Y值。Y值:综合考虑C值和S值的剪切位点得分,比单独考虑C值要更精确
    Y-pos最大Y值位置
    Smax最大S值。S值:信号肽得分。每个氨基酸对应一个S值,信号肽区域的S值较高
    S-pos最大S值位置
    Smean从N端氨基酸开始到剪切位点处各氨基酸的平均S值
    DS-mean和Y-max的平均值,对区分是否为分泌蛋白具有重要作用
    If_SignalP是否预测为分泌蛋白

    NetOGlyc 结果表各列含义:

    Unigene_IDUnigene的编号
    Length该Unigene编码的蛋白氨基酸序列的长度
    Oglyc_SiteO-型糖基化位点
    S_num序列中Ser丝氨酸数目
    T_num序列中Thr苏氨酸数目
    S_and_T_num序列中S+T数目
    Oglyc_Site_num序列中O-型糖基化位点数目

    ProP 结果表各列含义:

    Unigene_IDUnigene的编号
    Length该Unigene编码的蛋白氨基酸序列的长度
    Prop_Site弗林蛋白酶裂解位点
    R_num序列中Arg精氨酸数目
    K_num序列中Lys赖氨酸数目
    R_and_K_num序列中R+K数目
    Prop_Site_num序列中弗林蛋白酶裂解位点数目