我们将原始测序reads去除序列接头后获得的subreads作为有效数据(clean data),将subreads长度分布作为评估测序效果的主要内容。
Subreads 信息统计表说明
Subreads 长度分布图
x轴表示reads长度,y轴左侧坐标对应条形图,表示该长度下reads的数量,y轴右侧坐标对应曲线,曲线表示大于该长度的reads的累积数据量。Illumina 数据过滤统计表说明
Illumina Reads分布图
Illumina 碱基组成分布图
图中,X轴上,1-150bp 代表 read1 的碱基位置,151-300bp 代表 read2 的碱基位置。PacBio测序数据获得完整的基因组的基本原理:
组装结果统计表说明
校正结果统计表说明
GC-Depth 分布图说明
横轴表示GC含量,纵轴表示测序深度,右方是测序深度分布,上方是GC含量分布。由于每个物种的GC含量不同,同一个物种的GC含量会呈现集中分布。如果多数的点集中分布在一个比较窄的范围内,则表明不存在物种污染(左图);如果分布在多个区域,则表明可能存在其他物种污染(右图)。基因组圈图说明
最外圈是基因组序列位置坐标,由外圈到里圈分别为:正链基因、负链基因、ncRNA(black表示tRNA, red表示rRNA)、GC含量(red 表示大于均值,blue表示小于均值)、GC skew(GC偏移,用来衡量G和C的相对含量,用于环状染色体中标记起点和终点;GC skew=(G-C)/(G+C);purple表示大于0,orange表示小于0)。基因序列长度分布图图说明
横坐标为预测的基因长度;纵坐标(左边)对应柱形图,表示该长度基因的数目;纵坐标(右边)对应折线图,表示该长度基因所占所有基因数目的百分比。rRNA 预测结果表头说
tRNA 预测结果表头说
重复序列按照其在基因组上的的分布,可以分为两大类:散在重复序列、串联重复序列。散在重复序列是与串联重复序列的组织形式不同的另一类重复序列,是散在方式分布于基因组内的散在重复序列。这类DNA序列一般都是中度重复序列。利用RepeatMasker来预测基因组的散在重复序列。RepeatMasker是一款专门用于基因组重复序列识别的软件,几乎用于所有物种。我们利用RepeatMasker(http://www.repeatmasker.org/)来预测基因组的散在重复序列。然后利用专门的串联重复预测软件Tandem repeats finder来寻找串联重复。
软件网址:http://www.repeatmasker.org/
转座子是存在于染色体DNA上可以自主复制和移位的基本单位。转座过程指一段基因从原位上单独复制或断裂下来,环化后插入另一位点,并对其后的基因起调控作用。 最简单的转座子不含有任何宿主基因,常被称为插入序列(Insertional sequence,IS),它们是细菌染色体或质粒DNA的正常组成部分,每个IS元件只编码转座酶。复合型转座子 (composite transposon)发现于细菌,带有同转座无关的一些基因,如抗药性基因;它的两端就是IS。Tn可以传播到其他细菌细胞,是自然界中细菌产生抗药性的重要来源。
CRISPR(Clustered Regularly Interspaced Short Palindromic Repeats),规律成簇的间隔短回文重复,是大多数细菌、古细菌中一种天然免疫系统,对外来的质粒和噬菌体序列具有抵抗作用,能识别并使入侵的功能元件沉默,是一种对付攻击者的基因武器。
CRISPR序列由一个前导区(Leader)、多个短而高度保守的重复序列区(Repeat)和多个间隔区(Spacer)组成,如图。前导区一般位于CRISPR簇上游,是富含AT长度为300~500bp的区域,被认为可能是CRISPR簇的启动子序列。重复序列区长度为21~48bp,含有回文序列,可形成发卡结构。重复序列被长度为26~72bp的间隔区隔开。Spacer区域由俘获的外源DNA组成,类似免疫记忆,当含有同样序列的外源DNA入侵时,可被细菌机体识别,并进行剪切使之表达沉默,达到保护自身安全的目的。
CRISPR簇附近存在一个多态性家族基因。该家族编码的蛋白质均含有可与核酸发生作用的功能域(具有核酸酶、解旋酶、整合酶和聚合酶等活性),并且与CRISPR区域共同发挥作用,因此被命名为CRISPR关联基因(CRISPR associated),缩写为Cas。目前发现的Cas包括Cas1~Cas10等多种类型。Cas基因与CRISPR共同进化,共同构成一个高度保守的系统。
CRISPR结果统计表说明
CRISPR结果说明
基因岛(Gene Islands,GIs)是有横向起源迹象的一部分基因组。一个基因岛可以与多种生物功能相关,能与共生或病原机理相关,与生物体的适应性相关等。基于其功能的不同可以划分为不同的子类,如病原性基因岛(PAIs)与致病原机理相关,抗生素抗性基因岛包含有许多抗生素抗性基因。在细菌中,许多III型分泌系统和IV型分泌系统位于基因岛内。碱基分析与系统发育判断表明,相同的基因岛能在近缘物种上发生各种水平(转化、结合、转导)的基因转移。许多基因岛有来源于外源基因如噬菌体、质粒的移动元件,两侧连有重复结构,另一些能自我剪切并转到其他合适的受体内。
基因岛预测统计表
基因岛预测详细信息
Prophage详细信息表
Prophage详细信息表
四大数据库注释统计表:
Total Genes | 编码基因总数 |
Nr | 能注释到Nr数据库的基因数 |
Swissprot | 能注释到Swissprot数据库的基因数 |
KOG | 能注释到KOG数据库的基因数 |
Kegg | 能注释到Kegg数据库的基因数 |
annotation gene | 有注释的基因的数目 |
without annotation gene number | 没有注释的基因总数 |
注释结果汇总表各列含义如下所示:
geneID | 基因ID |
Symbol | Symbol 号 |
Nr-ID | blast 比对到 Nr 数据库中序列名 |
Nr-Score | blast 比对到 Nr 数据库的 Score |
Nr-Evalue | blast 比对到 Nr 数据库的 Evalue |
Nr-annotation | Nr 序列的描述 |
Swissprot-ID | blast 比对到 Swissprot 数据库中序列名 |
Swissprot-Score | blast 比对到 Swissprot 数据库的 Score |
Swissprot-Evalue | blast 比对到 Swissprot 数据库的 Evalue |
Swissprot-annotation | Swissprot 序列的描述 |
COG/KOG-Protein-or-Domain | blast 比对到 COG/KOG 数据库中的蛋白或结构域 |
COG/KOG-Score | blast 比对到 COG/KOG 数据库的 Score |
COG/KOG-Evalue | blast 比对到 COG/KOG 数据库的 Evalue |
COG/KOG-ID | COG/KOG 的 ID |
COG/KOG-Function-Description | COG/KOG 功能描述 |
KO-ID | KO 的 ID及注释 |
KEGG-Evalue | blast 比对到 KEGG 数据库的 Evalue |
KEGG-Score | blast 比对到 KEGG 数据库的 Score |
KEGG-Gene | blast 比对到 KEGG 数据库中的序列名 |
Pathway | Pathway |
GO-BiologicalProcess | GO生物过程 |
GO-MolecularFunction | GO分子功能 |
Go-CellularComponent | GO细胞组分 |
通过blast将预测得到的基因序列比对到数据库 ,得到跟给定基因具有最高序列相似性的蛋白,从而得到该基因的蛋白功能注释信息。
Query_id | 基因ID |
Subject_id | 比对到数据库中序列名 |
Identity | 比对的identity |
Align_length | 比对上的长度 |
Miss_match | 比对的错配数 |
Gap | Gap的比例 |
Query_start | 比对上的部分在基因上的起始位置 |
Query_end | 比对上的部分在基因上的终止位置 |
Subject_start | 比对上的部分在数据库序列上的起始位置 |
Subject_end | 比对上的部分在数据库序列上的终止位置 |
Positive | Positive的比例(Positive: 相同或相似的氨基酸视为Positive比对) |
E_value | 比对的Evalue |
Score | 比对的分值 |
Subject_annotation | 数据库序列的描述 |
Confident | 是否可信度较高,若 Identity >= 40% && Coverage >= 40% 为 "YES",否则为 "NO" |
Nr,Non-redundant protein database,即非冗余的蛋白质数据库,由NCBI创建并维护,内容比较全面,同时注释结果中会包含物种信息,根据基因注释到的物种情况,统计注释到的物种及基因数目。
使用blastp将基因编码的氨基酸序列和数据库比对获得注释信息。
Nr 数据库注释物种统计图
横坐标表示物种ID,纵坐标表示注释上的基因个数SwissProt 是经过严格筛选的高质量蛋白数据库,其所含序列信息少于NR 数据库,但其包含的是经过人工认证过的序列,可信度比较高。
使用diamond将基因编码的氨基酸序列和数据库比对获得注释信息。
COG,Cluster of Orthologous Groups of proteins,由NCBI创建并维护的蛋白数据库,根据细菌、藻类和真核生物完整基因组中编码蛋白的系统进化关系构建而成。通过比对将某个蛋白序列注释到某一个COG中,每一簇COG由直系同源序列构成,从而可以推测该序列的功能。COG数据库按照功能分为26类,详见http://www.ncbi.nlm.nih.gov/COG/。构成每个COG 的蛋白被假定为来自一个祖先蛋白,由基因复制或垂直家系(物种形成)进化而来,保留与原始蛋白相似的功能,可用于蛋白功能预测、分类等。
使用DIAMOND与COG(Cluster of Orthologous Groups of proteins)数据库比对,获得基因对应的注释结果,并根据注释结果对蛋白进行功能分类。
COG功能注释结果表各列含义如下所示:
COG注释结果统计图
横轴表示功能分类,以不同颜色展现,纵轴表示每个功能分类包含的预测基因的个数。KEGG(Kyoto Encyclopedia of Genes and Genomes),http://www.genome.jp/kegg/,系统分析基因产物和化合物在细胞中的代谢途径以及基因产物功能的数据库。
在后基因时代一个重大挑战是如何使细胞和有机体在计算机上完整的表达和演绎,让计算机利用基因信息对更高层次和更复杂细胞活动和生物体行为作出计算推测。为达到此目的,人们建立了一个在相关知识基础上的网络推测计算工具。在给出染色体中一套完整的基因的情况下,它可以对蛋白质交互(互动)网络在各种细胞活动起的作用作出预测。
KEGG 的 Pathway 数据库整合当前在分子互动网络(比如通道,联合体)的知识,KEGG 的 Genes/SSDB/KO 数据库提供关于在基因组计划中发现的基因和蛋白质的相关知识,KEGG 的Compound /Glycan/Reaction数据库提供生化复合物及反应方面的知识。
KEGG是系统分析基因产物在细胞中的代谢途径以及基因产物功能的数据库,利用 KEGG可以进一步研究基因在生物学上的复杂行为。根据 KEGG 注释信息得到Gene的 Pathway注释。
使用DIAMOND与KEGG数据库比对,获得基因所对应的注释结果。
注释到代谢通路结果表各列含义如下:
KEGG注释结果统计图
横轴表示基因数目,纵轴表示KEGG数据库的功能分类,黑色字体为level 1层级的分类,彩色字体为level 2层级。条形图上的数字代表注释上的基因数目。KEGG分类层级说明:https://www.kegg.jp/kegg/pathway.html#genetic。据 Nr 注释信息我们能得到 GO 功能注释。Gene Ontology(简称GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表(controlled vocabulary)来全面描述生物体中基因和基因产物的属性。
GO注释包含三个 ontology,分别为:细胞组分(cellular component,the parts of a cell or its extracellular environment);分子功能(molecular function,the elemental activities of a gene product at the molecular level, such as binding or catalysis);生物过程(biological process,operations or sets of molecular events with a defined beginning and end, pertinent to the functioning of integrated living units: cells, tissues, organs, and organisms)。
GO 的基本单位是 term(词条、节点),每个 term 都对应一个属性。
我们根据 Nr 注释信息,使用 Blast2GO 得到基因的 GO 注释信息。Blast2GO 已被其它文献引用超过 150 次,是同行广泛认可的 GO 注释软件。
得到每个基因的 GO 注释后,我们对所有基因做 GO 功能分类统计,从宏观上认识该物种的基因功能分布特征。
GO分类表各列含义如下:
蛋白质一般包含1个或多个功能区域,称为结构域。不同结构域的组合产生了丰富的蛋白质,对蛋白质结构域的鉴定也可以推测蛋白质功能。Pfam(Protein families database of alignments and hidden Markov models )提供了完整准确的蛋白质家族和结构域分类信息,以多序列比对信息和隐马尔可夫模型(HMM)表示,广泛应用于蛋白家族查询和蛋白结构域的注释。
Pfam 包括 PfamA 和 PfamB。其中 PfamA 中所包含的蛋白结构数据都是已知并且得到验证的,每个蛋白结构域都有各自的定义(definition)。而 PfamB 中的数据是通过模型和算法预测出来的,并且未得到验证,是对 PfamA 的补充。
蛋白结构相关注释汇总表各列含义如下:
PHI-base(Pathogen Host Interactions),病原宿主互作数据库,是一个免费开放的数据库,收录了经过实验验证或文献报道的能够感染植物、动物、真菌和昆虫的真菌、卵菌、细菌等病原菌的致病基因、毒力基因和效应蛋白基因。另外,数据库还收录了抗真菌化合物及其靶基因。 数据库基本每几个月就更新一次,目前数据库里共收录4460个基因、8046对互作关系、264个病原菌、176个宿主、410种疾病。PHI-base信息很齐全,会给出核酸序列、蛋白序列、功能注释、其他外部数据库的注释链接(Uniprot,Gene Ontology terms,EC Numbers,NCBI taxonomy,EMBL,PubMed and FRAC)。
PHI比对结果表格各列含义如下:
CAZy 全称为Carbohydrate-Active enZYmes Database,碳水化合物酶相关的专业数据库,内容包括能催化碳水化合物降解、修饰、以及生物合成的相关酶系家族。其包含五个主要分类:糖苷水解酶(Glycoside Hydrolases, GHs)、糖基转移酶(Glycosyl Transferases, GTs)、多糖裂解酶(Polysaccharide Lyases, PLs)、碳水化合物辅助酶类(Auxiliary Activities, AAs)和糖类酯解酶(Carbohydrate Esterases, CEs)。此外,还包含与碳水化合物相关的modules(Carbohydrate-Binding Modules,CBMs)。
CAZy注释表各列含义如下:
CAZy分类统计图
横轴表示酶的分类,纵轴表示该分类包含的基因数。分泌蛋白指在细胞内合成后,在信号肽的指导下穿过细胞膜分泌到细胞外起作用的蛋白质,如一些酶类,抗体和一部分激素等。许多致病因子或小分子代谢物都属于分泌蛋白,对于病原菌的研究有重要意义。引导新合成的蛋白质穿过膜结构的短肽链(长度5-30个氨基酸),即为信号肽,是分泌蛋白的标志之一。
跨膜蛋白(transmembrane protein,TP)是一种贯穿生物膜两端的蛋白。许多跨膜蛋白的功能是作为通道或“装载码头”来实施拒绝或允许某种特定的物质跨过生物膜的运输、进入细胞,同时,也使废弃的副产品运出细胞。跨膜蛋白通过信号肽引导到达细胞膜,整合进细胞膜中,之后信号肽将被切除。
total protein | 总蛋白数 | |
secretion protein | 分泌蛋白数量 | |
no secretion protein | 非分泌蛋白数量 |
分泌蛋白预测统计
Gene_ID | 基因编号 | |
Signal peptide | 是否预测为信号肽 | |
Cleave Site | 信号肽的氨基酸切断位置,如果为单数值,如19,则切断位点在第19个氨基酸;如果为范围,例如19,31,则切断位点在第19到31个氨基酸之间 | |
D score | D score: 信号肽预测分值,当此数值大于0.51,所预测结果存在信号肽 | |
Transmembrane | 预测方式,分为TM和noTM两种。TM为跨膜模式,noTM为非跨膜模式,signalP默认根据结果选用最好的预测方式 |
跨膜蛋白预测详细信息
TNSS效应蛋白预测
效应蛋白是细菌分泌系统研究中的一个热点,病原菌通过分泌系统TNSS(type N secretion systems,I型-VII型)将效应蛋白分泌至胞外或是宿主细胞中,影响细胞进程中免疫应答反应、细胞衰亡等各种重要活动最终引起病理反应。革兰氏阴性菌的T3SS是研究比较多的分泌系统,其中效应蛋白(effector)是T3SS分泌系统发挥毒力的部分,与细菌的致病性密切相关,常用于分子水平病原菌的感染机制、毒力作用等研究。TNSS系统效应蛋白注释结果
双组分系统预测
在分子生物学中,双组分系统(two-component system,TCSs,也称为双组分调控系统,two-component regulatory system)是机体识别和应对复杂环境变化的刺激-响应偶联机制,在原核、真核生物中都有发现,但值得注意的是,其在细菌中更为常见,最大的应激反应基因家族存在于细菌中。双组分系统的存在使细菌可以感受、应对、适应广泛的生存环境类型、环境压力,在渗透压、温度等的刺激响应,群体感应,趋化性,耐药性等方面有重要作用。原核生物中,双组分系统的基因数平均为30左右,占基因组1~2%的比例,有的物种甚至超过200个。双组分系统预测结果表说明
双组分系统示意图
CARD注释
CARD(Comprehensive Antibiotic Resistance Database)和ARDB(Antibiotic Resistance Genes Database)是两个使用最为广泛的细菌耐药基因数据库。但是ARDB数据库在2009年后已经停止更新。CARD它包含了ARDB数据库中所有的抗性信息,同时更新频率较高。CARD以Antibiotic Resistance Ontology(ARO)为分类单位(term)构建,用于关联抗生素模块及其目标、抗性机制、基因变异等信息。通过该数据库的注释,可以找到耐药性相关基因的名称,所耐受的抗生素种类等信息。CARD注释表
VFDB 注释
VFDB,Virulence Factors of Pathogenic Bacteria,毒力因子数据库,用于专门研究致病细菌、衣原体和支原体致病因子的数据库。包含24个种,共425个致病因子,24个致病岛,2359个与毒力因子的组成、结构、功能、致病机理和基因组等信息。毒力因子数据库能够为病原菌的入侵机理研究提供关键证据,同时结合比较基因组学等分析手段,可以从全基因组水平研究同属不同病原菌的毒力因子构成和基因组分布等特征。VFDB注释表
一般情况下,参与次级代谢途径中生物合成酶的基因在染色体上成簇排列。基于指定类型的profile hidden Markov models, antismash 能准确鉴定所有已知的次级代谢基因簇。在antismash中,将次级代谢基因簇分为24类。最常见的次级代谢基因簇是type I polyketides synthase(T1pks),type II polyketides synthase(T2pks),type III polyketides synthase(T3pks)和non-ribosomal peptides synthase(NRPS)。例如:四环素、大环内酯类、安莎类、聚醚类由PKS途径合成;beta-内酰胺类、多肽类、糖肽类由NRPS途径合成。
Cluster | 基因簇编号 | |
Contig | Contig ID | |
Gene cluster Type | 基因簇类型 | |
Gene cluster Genes | 基因簇包含的基因 |
根据不同数据库/功能,我们采用不同软件进行功能注释:
数据库/功能 | 作用 | 软件 | 参数 |
Nr | 蛋白注释 | Blastp | evalue<=1e-5 |
SwissProt | 蛋白注释 | Diamond | evalue<=1e-5 |
KOG | 同源蛋白注释 | Diamond | evalue<=1e-5 |
KEGG | 代谢通路相关蛋白 | Diamond | evalue<=1e-5 |
GO | GO term注释 | Blast2GO | 默认 |
Pfam | 蛋白结构域 | Pfam_Scan | 默认 |
CAZy | 碳水化合物酶注释 | Blastp | evalue<=1e-5 |
PHI | 病原与宿主互作蛋白 | Blastp | evalue<=1e-5 |
SignalP | 信号肽 | SignalP | 默认 |
次生代谢基因簇 | 次生代谢基因簇 | Antismash | 默认 |