原始测序数据质控

Pacbio测序subreads统计

我们将原始测序reads去除序列接头后获得的subreads作为有效数据（clean data），将subreads长度分布作为评估测序效果的主要内容。

Subreads 信息统计表说明

Sample: 样本名
Read Bases: 碱基数
Number of Reads: read的数目
Mean Length: read的平均长度
Reads N50: 将所有read从长到短排序，并依次累加长度。当累加片段长度达到总片段长度（所有read 的长度）的 50% 时的那条read的长度

Subreads 长度分布图

x轴表示reads长度，y轴左侧坐标对应条形图，表示该长度下reads的数量，y轴右侧坐标对应曲线，曲线表示大于该长度的reads的累积数据量。

Illumina 数据过滤统计表说明

Sample：样品名称
Before filter：过滤前样品碱基信息
After filter：过滤后样品碱基信息
Bases：碱基总数（单位bp）
Reads：reads总数
Clean bases：过滤低质量reads后获得的有效数据碱基总数及占raw bases的百分比
Clean reads：过滤低质量reads后获得的reads总数
Q20（%）：测序碱基正确率达99%以上的碱基数及占过滤前/后碱基总数的比例
Q30（%）：测序碱基正确率99.9%以上的碱基数占过滤前/后碱基总数的比例
N（%）：N碱基数及占过滤前/后碱基总数的比例
GC（%）：GC碱基数及占过滤前/后碱基总数的比例

Illumina Reads分布图

Adaptor：表示含有接头序列的 reads 数及占总 reads 数的比例
N containing：表示含未知碱基大于10%的 reads 数及占 reads 总数的比例
Low quality：表示低质量的 reads 数及占 reads 总数的比例
Clean：是原始序列数据经过去除杂质后得到的数据及占 reads 总数的比

Illumina 碱基组成分布图

图中，X轴上，1-150bp 代表 read1 的碱基位置，151-300bp 代表 read2 的碱基位置。
A、T、C、G曲线各代表每个位置A、T、C、G碱基的比例。
碱基组成平衡的情况下，A、T 曲线重合，G、C 曲线重合。
如果测序中出现不正常的情况，碱基组成就可能不平衡。
N 曲线代表每个位置未被测到的碱基的比例。
mean 曲线表示碱基在每个位置的平均质量。
Q20曲线代表碱基在每个位置的质量值≥Q20的碱基比例。
过滤后的数据画碱基组成和质量值分布图可直观呈现数据质量情况。

基因组组装

PacBio测序数据获得完整的基因组的基本原理：

组装结果统计

组装结果统计表说明

Sample：样本名字
Total Number：Scaffold的个数
Total length：组装结果的基因组大小
Gap(N)：碱基N的个数
GC content：GC含量的比例

校正结果统计表说明

Sample：样品名称
Genome size（bp）：基因组大小
Correction（bp）：校正位点个数
Insertion：校正插入的碱基数
Deletion：校正删除的碱基数
Substitution：校正替换的碱基数
Percent：校正碱基数占基因组大小的比例
Before GC%：校正前基因组GC含量
After GC%：校正后基因组GC含量

GC-Depth 分布图说明

横轴表示GC含量，纵轴表示测序深度，右方是测序深度分布，上方是GC含量分布。由于每个物种的GC含量不同，同一个物种的GC含量会呈现集中分布。如果多数的点集中分布在一个比较窄的范围内，则表明不存在物种污染（左图）；如果分布在多个区域，则表明可能存在其他物种污染（右图）。

基因组圈图说明

最外圈是基因组序列位置坐标，由外圈到里圈分别为：正链基因、负链基因、ncRNA(black表示tRNA, red表示rRNA)、GC含量（red 表示大于均值，blue表示小于均值）、GC skew（GC偏移，用来衡量G和C的相对含量，用于环状染色体中标记起点和终点；GC skew=(G-C)/(G+C)；purple表示大于0，orange表示小于0）。

基因组组分分析

编码基因预测

编码基因预测结果统计表说明

Sample：样本名字
Total Number：Gene的个数
Total length：基因总长度
Maximum Length：最长的 Gene的长度
Minimum Length：最短的Gene的长度
GC content：GC含量的比例

基因序列长度分布图图说明

横坐标为预测的基因长度；纵坐标（左边）对应柱形图，表示该长度基因的数目；纵坐标（右边）对应折线图，表示该长度基因所占所有基因数目的百分比。

非编码RNA预测

rRNA 预测结果表头说

ID: 编号
Contig: Contig ID
Start: 起始位置
End: 终止位置
Strand: 正负链
Type: rRNA 类型

tRNA 预测结果表头说

ID: 编号
Contig: Contig ID
Start: 起始位置
End: 终止位置
Type: tRNA携带的氨基酸类型
Anti codon：tRNA上的反密码子
Cove score：预测得分

sRNA 预测结果表头说明

ID: 编号
Contig: Contig ID
Start: 起始位置
End: 终止位置
Strand: 正负链
Target_Family: 比对上数据库中的sRNA/miRNA 家族名称
Target_Acc: 比对上数据库中的sRNA/miRNA Accession编号
Score: 比对分数
E-value: E value值

非编码RNA预测结果统计的表头说明：

Type：预测到的RNA类型
Number：预测到的RNA个数
Average length(bp)：预测到的该类型RNA的平均长度
Total length：预测到的该类型RNA的总长度
In genome(%)：预测到的RNA碱基数占基因组总碱基数的百分比

重复序列注释

重复序列按照其在基因组上的的分布，可以分为两大类：散在重复序列、串联重复序列。散在重复序列是与串联重复序列的组织形式不同的另一类重复序列，是散在方式分布于基因组内的散在重复序列。这类DNA序列一般都是中度重复序列。利用RepeatMasker来预测基因组的散在重复序列。RepeatMasker是一款专门用于基因组重复序列识别的软件，几乎用于所有物种。我们利用RepeatMasker(http://www.repeatmasker.org/)来预测基因组的散在重复序列。然后利用专门的串联重复预测软件Tandem repeats finder来寻找串联重复。
软件网址：http://www.repeatmasker.org/

散在重复序列预测结果说明:

Repeat type 类型：
SINE，short interspersed nuclear elements，短散在重复序列
LINE，long interspersed nuclear elements，长散在重复序列
LTR，long terminal repeats，长末端重复序列
DNA elements，DNA 转座子
Unclassified，未定义类型

串联重复序列预测结果表头说明:

ID: 编号
Contig: Contig序列ID
Start: 起始位置
End: 终止位置
Repeat_Size: 串联重复序列长度
Consensus_Size: 一致性序列长度
Copies_Number: 重复次数
Score: 打分值
Entropy: 熵值
Consensus_Pattern: 一致性序列
Repeat_Seq: 串联重复序列

串联重复序列统计表说明:

Number_of_Repeats: 串联重复序列总数
Total_Bases: 串联重复序列总碱基数
Percentage_of_Sequence: 串联重复序列占基因组百分比

转座子

转座子是存在于染色体DNA上可以自主复制和移位的基本单位。转座过程指一段基因从原位上单独复制或断裂下来，环化后插入另一位点，并对其后的基因起调控作用。最简单的转座子不含有任何宿主基因，常被称为插入序列(Insertional sequence，IS)，它们是细菌染色体或质粒DNA的正常组成部分，每个IS元件只编码转座酶。复合型转座子 (composite transposon)发现于细菌，带有同转座无关的一些基因，如抗药性基因；它的两端就是IS。Tn可以传播到其他细菌细胞，是自然界中细菌产生抗药性的重要来源。

转座子预测结果表格说明:

ID：Tn的编号
Type：Tn类型，常见类型如下图
Locus：Tn所在序列的编号
Start：Tn的起始位置
End：Tn的终止位置
Strand：Tn所在的正负链

CRISPR序列预测

CRISPR（Clustered Regularly Interspaced Short Palindromic Repeats），规律成簇的间隔短回文重复，是大多数细菌、古细菌中一种天然免疫系统，对外来的质粒和噬菌体序列具有抵抗作用，能识别并使入侵的功能元件沉默，是一种对付攻击者的基因武器。
CRISPR序列由一个前导区(Leader)、多个短而高度保守的重复序列区(Repeat)和多个间隔区(Spacer)组成，如图。前导区一般位于CRISPR簇上游，是富含AT长度为300～500bp的区域，被认为可能是CRISPR簇的启动子序列。重复序列区长度为21～48bp，含有回文序列，可形成发卡结构。重复序列被长度为26～72bp的间隔区隔开。Spacer区域由俘获的外源DNA组成，类似免疫记忆，当含有同样序列的外源DNA入侵时，可被细菌机体识别，并进行剪切使之表达沉默，达到保护自身安全的目的。
CRISPR簇附近存在一个多态性家族基因。该家族编码的蛋白质均含有可与核酸发生作用的功能域(具有核酸酶、解旋酶、整合酶和聚合酶等活性)，并且与CRISPR区域共同发挥作用，因此被命名为CRISPR关联基因(CRISPR associated)，缩写为Cas。目前发现的Cas包括Cas1～Cas10等多种类型。Cas基因与CRISPR共同进化，共同构成一个高度保守的系统。

CRISPR结果统计表说明

Total CRISPR: CRISPR 总数
Credible CRISPR: 可靠的CRISPR数量
Questionable CRISPR: 争议的CRISPR数量

CRISPR结果说明

Crispr_Id: CRISPR编号
CRISPR_Start: CRISPR起始位置
CRISPR_End: CRISPR终止位置
CRISPR_Length: CRISPR长度
Potential_Orientation: 序列方向
Consensus_Repeat: 一致性重复序列
Repeat_Length: 重复序列长度
Spacers_Nb: Spacer数量
Evidence_Level: 可信度，Level>=3 表明可信度较高

基因岛预测

基因岛（Gene Islands，GIs）是有横向起源迹象的一部分基因组。一个基因岛可以与多种生物功能相关，能与共生或病原机理相关，与生物体的适应性相关等。基于其功能的不同可以划分为不同的子类，如病原性基因岛（PAIs）与致病原机理相关，抗生素抗性基因岛包含有许多抗生素抗性基因。在细菌中，许多III型分泌系统和IV型分泌系统位于基因岛内。碱基分析与系统发育判断表明，相同的基因岛能在近缘物种上发生各种水平（转化、结合、转导）的基因转移。许多基因岛有来源于外源基因如噬菌体、质粒的移动元件，两侧连有重复结构，另一些能自我剪切并转到其他合适的受体内。

基因岛预测统计表

GIs number：预测的基因岛的个数
Total length（bp）：基因岛的总长度
Average length（bp）：基因岛的平均长度

基因岛预测详细信息

GI_ID：GI 编号
Island start：基因岛在该序列的起始位置
Island end：基因岛在该序列的终止位置
Length：基因岛的长度
Gene ID：基因编号
Gene start：基因岛上基因的起始位置
Gene end：基因岛上基因的终止位置
Strand：基因所在的正负链信息
Product：基因在Nr数据库的描述信息

前噬菌体预测

整合在宿主基因组上的温和噬菌体的核酸称为前噬菌体（prophage）。带有前噬菌体的细菌称为溶源菌，具有无需外部感染而产生噬菌体的能力，并且这种能力可传递给后代。如果提供适当条件打破保持前噬菌体状态的机制，噬菌体基因组即可进行自主增殖，并使细胞裂解。
前噬菌体序列的存在可能允许一些细菌获取抗生素抗性，增强对环境的适应性，提高粘附力或使细菌成为致病菌。同时，通过前噬菌体的研究有可能找到特异的抗生素甚至是先进的癌症治疗方法。
使用软件Phage_Finder 预测前噬菌体。

Prophage详细信息表

Number: Prophage数量
Total_Length: Prophage总长度
Average_Length: Prophage平均长度

Prophage详细信息表

ID: 编号
#asmbl_id：Contig ID
genome_size：基因组大小
genome_gc：基因组 GC 含量
begin_region: 起始位置
end_region：终止位置
size_region：前噬菌体区域大小
label：small/medium/large
type：类型(prophage/integrated element/degenerate)
region_gc: 前噬菌体区域GC含量
best_db_match：最优比对
begin_gene：起始基因
end_gene：终止基因
region_orientation：正负链
#genes：前噬菌体区域包含的基因数量

基因功能注释

四大数据库注释统计表：

Total Genes	编码基因总数
Nr	能注释到Nr数据库的基因数
Swissprot	能注释到Swissprot数据库的基因数
KOG	能注释到KOG数据库的基因数
Kegg	能注释到Kegg数据库的基因数
annotation gene	有注释的基因的数目
without annotation gene number	没有注释的基因总数

注释结果汇总表各列含义如下所示：

geneID	基因ID
Symbol	Symbol 号
Nr-ID	blast 比对到 Nr 数据库中序列名
Nr-Score	blast 比对到 Nr 数据库的 Score
Nr-Evalue	blast 比对到 Nr 数据库的 Evalue
Nr-annotation	Nr 序列的描述
Swissprot-ID	blast 比对到 Swissprot 数据库中序列名
Swissprot-Score	blast 比对到 Swissprot 数据库的 Score
Swissprot-Evalue	blast 比对到 Swissprot 数据库的 Evalue
Swissprot-annotation	Swissprot 序列的描述
COG/KOG-Protein-or-Domain	blast 比对到 COG/KOG 数据库中的蛋白或结构域
COG/KOG-Score	blast 比对到 COG/KOG 数据库的 Score
COG/KOG-Evalue	blast 比对到 COG/KOG 数据库的 Evalue
COG/KOG-ID	COG/KOG 的 ID
COG/KOG-Function-Description	COG/KOG 功能描述
KO-ID	KO 的 ID及注释
KEGG-Evalue	blast 比对到 KEGG 数据库的 Evalue
KEGG-Score	blast 比对到 KEGG 数据库的 Score
KEGG-Gene	blast 比对到 KEGG 数据库中的序列名
Pathway	Pathway
GO-BiologicalProcess	GO生物过程
GO-MolecularFunction	GO分子功能
Go-CellularComponent	GO细胞组分

通过blast将预测得到的基因序列比对到数据库，得到跟给定基因具有最高序列相似性的蛋白，从而得到该基因的蛋白功能注释信息。

blast比对各个数据库结果表各列含义如下所示：

Query_id	基因ID
Subject_id	比对到数据库中序列名
Identity	比对的identity
Align_length	比对上的长度
Miss_match	比对的错配数
Gap	Gap的比例
Query_start	比对上的部分在基因上的起始位置
Query_end	比对上的部分在基因上的终止位置
Subject_start	比对上的部分在数据库序列上的起始位置
Subject_end	比对上的部分在数据库序列上的终止位置
Positive	Positive的比例(Positive: 相同或相似的氨基酸视为Positive比对)
E_value	比对的Evalue
Score	比对的分值
Subject_annotation	数据库序列的描述
Confident	是否可信度较高，若 Identity >= 40% && Coverage >= 40% 为 "YES"，否则为 "NO"

TNSS效应蛋白预测

效应蛋白是细菌分泌系统研究中的一个热点，病原菌通过分泌系统TNSS（type N secretion systems，I型-VII型）将效应蛋白分泌至胞外或是宿主细胞中，影响细胞进程中免疫应答反应、细胞衰亡等各种重要活动最终引起病理反应。革兰氏阴性菌的T3SS是研究比较多的分泌系统，其中效应蛋白（effector）是T3SS分泌系统发挥毒力的部分，与细菌的致病性密切相关，常用于分子水平病原菌的感染机制、毒力作用等研究。
我们基于蛋白序列功能数据库（KEGG，Nr）注释结果，提取分泌系统TNSS（type N secretion systems，I型-VII型）相关蛋白。并采用EffectiveT3软件[]对革兰氏阴性菌进行T3SS效应蛋白的预测。

TNSS系统效应蛋白注释结果

Gene ID：基因的编号
Symbol：基因名称
Type：分泌系统类型
Nr：数据库描述
Pathway ID: 基因所在KEGG代谢通路的编号及描述
KO ID：KEGG对应的基因编号及描述

双组分系统预测

在分子生物学中，双组分系统（two-component system，TCSs，也称为双组分调控系统，two-component regulatory system）是机体识别和应对复杂环境变化的刺激-响应偶联机制，在原核、真核生物中都有发现，但值得注意的是，其在细菌中更为常见，最大的应激反应基因家族存在于细菌中。双组分系统的存在使细菌可以感受、应对、适应广泛的生存环境类型、环境压力，在渗透压、温度等的刺激响应，群体感应，趋化性，耐药性等方面有重要作用。原核生物中，双组分系统的基因数平均为30左右，占基因组1~2%的比例，有的物种甚至超过200个。
双组分系统（two-component system，TCSs）是机体识别和应对复杂环境变化的刺激-响应偶联机制。双组分系统的存在使细菌可以感受、应对、适应广泛的生存环境类型、环境压力，在渗透压等的刺激响应、群体感应、趋化性、耐药性等方面有重要作用。基于双组分系统的特征，我们预测并绘制细菌基因组上的双组分系统。
双组分系统特征
“双组分”指“感受环境刺激的组分”和“作出应答响应的组分”，对应两个基因，基因编码的蛋白上有高度保守的结构域。其中感受刺激由组氨酸激酶受体结构域（ HATPase_c domain）执行，应答响应由响应调节蛋白结构域（ Response_reg domain）执行 [文献依据：Tierney AR, Rather PN. Roles of two-component regulatory systems in antibiotic resistance. Future Microbiol. 2019;14(6):533‐552. doi:10.2217/fmb-2019-0002]。大部分情况，两个基因在基因组上位置相邻。
由于很多感受外界刺激的蛋白位于细胞膜上，所以有些双组分系统的蛋白含有跨膜螺旋结构域（Transmembrane_Helix）。有些双组分系统还含有磷酸受体结构域（HisKA），可辅助信号传递。

预测步骤： 首先基于Pfam注释结果，寻找含HATPase_c和Response_reg结构域的基因。然后挑选含两种结构域且在基因组上位置相邻的基因，作为潜在的TCSs。根据结构域位点信息绘制基因结构示意图，如果基因上含有跨膜螺旋和磷酸受体，则一起展示。

双组分系统预测结果表说明

GeneID_HK: HK 基因ID
Transmembrane_Helix: 跨膜螺旋位置
HisKA: HisKA结构域位置
HATPase_c: HATPase_c结构域位置
GeneID_RR: 应答调节蛋白ID
Response_reg: Response_reg结构域位置

双组分系统示意图

HisKA（蓝色）: 磷酸受体结构域, 该区域含有一个保守组氨酸位点的 H-box, 能够自身磷酸化
HATPase_c（红色）: 位于胞内, 是组氨酸激酶的催化结构域, 主要负责把 ATP 的磷酸基团转移到组氨酸上
Response_reg（绿色）: Response regulator(RR), 应答调节蛋白
黑色模块：跨膜螺旋
两端编号：基因ID

CARD注释

CARD（Comprehensive Antibiotic Resistance Database）和ARDB（Antibiotic Resistance Genes Database）是两个使用最为广泛的细菌耐药基因数据库。但是ARDB数据库在2009年后已经停止更新。CARD它包含了ARDB数据库中所有的抗性信息，同时更新频率较高。CARD以Antibiotic Resistance Ontology（ARO）为分类单位（term）构建，用于关联抗生素模块及其目标、抗性机制、基因变异等信息。通过该数据库的注释，可以找到耐药性相关基因的名称，所耐受的抗生素种类等信息。

CARD注释表

ORF ID：基因序列编号
Cut off：RGI的筛选方法，有Perfect、Strict、和Loose三种
PASS_EVALUE：比对E值，越低表示可靠性越高
Best_Hit_evalue：最佳匹配结果对应的E值
Best_Hit_ARO：最佳匹配的AOR编号
Best_Identities：最佳匹配的序列相似度
ARO：通过过滤阈值的所有ARO的ID
ARO name：通过过滤阈值的所有ARO注释
Model type：RGI预测类型，分为protein variant与protein homolog两种
SNP：预测相比注释结果所对应的蛋白变异位点
Best hit ARO category：最佳注释ARO所属抗性基因分类
ARO category：所有通过阈值的ARO所属抗性基因分类

VFDB 注释

VFDB，Virulence Factors of Pathogenic Bacteria，毒力因子数据库，用于专门研究致病细菌、衣原体和支原体致病因子的数据库。包含24个种，共425个致病因子，24个致病岛，2359个与毒力因子的组成、结构、功能、致病机理和基因组等信息。毒力因子数据库能够为病原菌的入侵机理研究提供关键证据，同时结合比较基因组学等分析手段，可以从全基因组水平研究同属不同病原菌的毒力因子构成和基因组分布等特征。

VFDB注释表

Query_id：基因序列编号
Subject_id：比对到数据库中基因编号
Identity：比对的identity
Align_length：比对上的长度
Miss_match：比对的错配数
Gap：Gap的比例
Query_start：比对上的部分在基因上的起始位置
Query_end：比对上的部分在基因上的终止位置
Subject_start：比对上的部分在数据库序列上的起始位置
Subject_end：比对上的部分在数据库序列上的终止位置
E_value：比对的Evalue
Score：比对的分值
Align length：比对上的长度
VFs：毒力因子
Description：毒力因子的描述信息
Organism：比对上的序列所在物种
VFDB ID：注释到的毒力因子编号

次级代谢基因簇预测

一般情况下，参与次级代谢途径中生物合成酶的基因在染色体上成簇排列。基于指定类型的profile hidden Markov models, antismash 能准确鉴定所有已知的次级代谢基因簇。在antismash中，将次级代谢基因簇分为24类。最常见的次级代谢基因簇是type I polyketides synthase(T1pks)，type II polyketides synthase(T2pks)，type III polyketides synthase(T3pks)和non-ribosomal peptides synthase(NRPS)。例如：四环素、大环内酯类、安莎类、聚醚类由PKS途径合成；beta-内酰胺类、多肽类、糖肽类由NRPS途径合成。

次级代谢产物基因簇预测结果

Cluster		基因簇编号
Contig		Contig ID
Gene cluster Type		基因簇类型
Gene cluster Genes		基因簇包含的基因

根据不同数据库/功能，我们采用不同软件进行功能注释：

数据库/功能	作用	软件	参数
Nr	蛋白注释	Blastp	evalue<=1e-5
SwissProt	蛋白注释	Diamond	evalue<=1e-5
KOG	同源蛋白注释	Diamond	evalue<=1e-5
KEGG	代谢通路相关蛋白	Diamond	evalue<=1e-5
GO	GO term注释	Blast2GO	默认
Pfam	蛋白结构域	Pfam_Scan	默认
CAZy	碳水化合物酶注释	Blastp	evalue<=1e-5
PHI	病原与宿主互作蛋白	Blastp	evalue<=1e-5
SignalP	信号肽	SignalP	默认
次生代谢基因簇	次生代谢基因簇	Antismash	默认

total protein		总蛋白数
secretion protein		分泌蛋白数量
no secretion protein		非分泌蛋白数量

Gene_ID		基因编号
Signal peptide		是否预测为信号肽
Cleave Site		信号肽的氨基酸切断位置，如果为单数值，如19，则切断位点在第19个氨基酸；如果为范围，例如19,31，则切断位点在第19到31个氨基酸之间
D score		D score: 信号肽预测分值，当此数值大于0.51，所预测结果存在信号肽
Transmembrane		预测方式，分为TM和noTM两种。TM为跨膜模式，noTM为非跨膜模式，signalP默认根据结果选用最好的预测方式

Pacbio测序subreads统计

基因组组装

组装结果统计

基因组组分分析

编码基因预测

编码基因预测结果统计表说明

非编码RNA预测

sRNA 预测结果表头说明

非编码RNA预测结果统计的表头说明：

重复序列注释

散在重复序列预测结果说明:

串联重复序列预测结果表头说明:

串联重复序列统计表说明:

转座子

转座子预测结果表格说明:

CRISPR序列预测

基因岛预测

前噬菌体预测

基因功能注释

blast比对各个数据库结果表各列含义如下所示：

Nr注释

SwissProt注释

COG注释

KEGG注释

GO注释

结构域分析（Pfam）

病原与宿主互作数据库（PHI）注释

碳水化合物相关酶（CAZy）数据库注释

分泌蛋白预测

SignalP 结果统计表

含信号肽蛋白预测结果表

次级代谢基因簇预测

次级代谢产物基因簇预测结果

Pacbio测序subreads统计

基因组组装

组装结果统计

基因组组分分析

编码基因预测

编码基因预测结果统计表说明

非编码RNA预测

sRNA 预测结果表头说明

非编码RNA预测结果统计 的表头说明：

重复序列注释

散在重复序列预测结果说明:

串联重复序列预测结果表头说明:

串联重复序列统计表说明:

转座子

转座子预测结果表格说明:

CRISPR序列预测

基因岛预测

前噬菌体预测

基因功能注释

blast比对各个数据库结果表各列含义如下所示：

Nr注释

SwissProt注释

COG注释

KEGG注释

GO注释

结构域分析（Pfam）

病原与宿主互作数据库（PHI）注释

碳水化合物相关酶（CAZy）数据库注释

分泌蛋白预测

SignalP 结果统计表

含信号肽蛋白预测结果表

次级代谢基因簇预测

次级代谢产物基因簇预测结果

非编码RNA预测结果统计的表头说明：