项目编号 | GDR20120491_std_1 |
样品信息 | AM |
基于Pacbio Sequel的全长转录组文库不进行片段筛选,每个样本构建一个全库。文库构建整体流程如下图:
![]() |
Fig 2-2-1 Sequel全长转录组cDNA文库构建整体流程图 |
![]() |
Fig 2-2-2 上机测序示意图 |
数据分析总体流程如下:
![]() |
使用SMRT Link V8.0.0[1]对Sequel2产生的原始数据进行分析。首先从下机数据中提取高质量的CCS序列,移除引物和barcode、poly(A)和连环结构,得到FLNC reads。再对相似的FLNC reads进行聚类,合并成一个完整的isoform。之后,可以对得到的全长转录本进行基因功能注释和结构分析。数据分析总体流程图如下: |
Fig 2-3-1 全长转录组(无参)数据分析总体流程图 |
sample | total base(bp) | subreads number | average length | N50 |
---|---|---|---|---|
AM | 54522359531 | 26108186 | 2088 | 2290 |
![]() |
Fig 3-1-1 subreads长度分布图 |
转录本可以在ZMW(zero-mode waveguides,零模波导孔)中循环测序,循环一圈,便可以将转录本的正链,互补链各测一遍,每循环一次叫一个full pass。CCS序列又称为环型一致性序列(Circular consensus sequence),它可经由CCS分析,把多次循环测序的转录本去冗余之后所产生。本报告流程选取下机数据中full passes 数目大于等于1的序列开展CCS分析,最后得到用于后续转录本分析的高精确度CCS reads(又称HIFI reads)。筛选后的CCS序列的数量和长度等信息统计如下:
Sample | Number of reads | Number of CCS bases | CCS Read Length (mean) | Number of Passes (mean) |
---|---|---|---|---|
AM | 700133 | 1595865928 | 2279 | 34 |
![]() |
![]() |
|
Fig 3-2-1 CCS长度分布图 | Fig 3-2-2 CCS passes分布图 | |
x轴表示read长度,左边Y轴为柱形图坐标,表示长度在一定范围内(X轴)的reads数量。右边Y轴为曲线图坐标,表示长度大于一定数值(X轴)的reads数量。 | 横坐标表示full pass的数目,纵坐标表示含有对应full pass数的CCS序列的数目。 |
Number of polished high-quality isoforms | Number of polished low-quality isoforms |
---|---|
43348 | 487 |
![]() |
Fig 3-3-1 一致性序列长度分布图 |
Total Number | Total length(bp) | Maximum Length(bp) | Minimum Length(bp) | Average Length(bp) | N50 Length(bp) | GC content |
---|---|---|---|---|---|---|
43354 | 97651496 | 8282 | 72 | 2252.42 | 2409 | 43.48% |
Reads聚类和校正之后,使用软件cd-hit-v4.6.7对一致性序列进行去冗余,将相似度在99%以上的序列合并。采取局部比对的方法,其中,对于较短的序列,比对率必须达到99%,并且比对不上的碱基数要少于30bp;对于较长的序列,比对率必须达到90%,并且比对不上的碱基数要少于100bp。最终得到样本的全长转录组。
Total Number | Total length(bp) | Maximum Length(bp) | Minimum Length(bp) | Average Length(bp) | N50 Length(bp) | GC content |
---|---|---|---|---|---|---|
34949 | 77770726 | 8282 | 72 | 2225.26 | 2385 | 43.35% |
![]() |
Fig 3-5-1 isoform 序列长度分布图 |
Total Unigenes | Nr | KEGG | KOG | SwissProt | annotation genes | without annotation gene |
---|---|---|---|---|---|---|
34949 | 34636 | 34467 | 24307 | 30551 | 34660 | 289 |
![]() |
Fig 4-1-1 四大数据库注释维恩图 |
Fig 4-1-2 E值分布图汇总
![]() |
Fig 4-1-3 各样本物种分布统计图(只展示前十种) |
Query_id | Query_length | Query_start | Query_end | Subject_id | Subject_length | Subject_start | Subject_end | Identity(%) | Align_length | Mismatch | Gap | Score | E_value | Subject_annotation |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Isoform0000001 | 8282 | 404 | 8113 | sp|F4IVL6|GRV2_ARATH | 2554 | 1 | 2552 | 91.9 | 2574 | 182 | 26 | 4575.4 | 0.0e+00 | sp|F4IVL6|GRV2_ARATH DnaJ homolog subfamily C GRV2 OS=Arabidopsis thaliana OX=3702 GN=GRV2 PE=1 SV=1 |
Isoform0000001 | 8282 | 458 | 8104 | sp|O75165|DJC13_HUMAN | 2243 | 3 | 2230 | 29.3 | 2590 | 1429 | 403 | 928.3 | 2.0e-268 | sp|O75165|DJC13_HUMAN DnaJ homolog subfamily C member 13 OS=Homo sapiens OX=9606 GN=DNAJC13 PE=1 SV=5 |
Isoform0000002 | 8163 | 16 | 7908 | sp|F4I893|ILA_ARATH | 2696 | 101 | 2696 | 90.3 | 2637 | 209 | 47 | 4222.9 | 0.0e+00 | sp|F4I893|ILA_ARATH Protein ILITYHIA OS=Arabidopsis thaliana OX=3702 GN=ILA PE=1 SV=1 |
Isoform0000002 | 8163 | 91 | 7893 | sp|Q92616|GCN1_HUMAN | 2671 | 9 | 2667 | 31.1 | 2707 | 1711 | 154 | 1144.0 | 0.0e+00 | sp|Q92616|GCN1_HUMAN eIF-2-alpha kinase activator GCN1 OS=Homo sapiens OX=9606 GN=GCN1 PE=1 SV=6 |
Isoform0000002 | 8163 | 91 | 7893 | sp|E9PVA8|GCN1_MOUSE | 2671 | 9 | 2667 | 31.1 | 2707 | 1712 | 154 | 1111.3 | 0.0e+00 | sp|E9PVA8|GCN1_MOUSE eIF-2-alpha kinase activator GCN1 OS=Mus musculus OX=10090 GN=Gcn1 PE=1 SV=1 |
Isoform0000002 | 8163 | 649 | 7788 | sp|Q54WR2|GCN1_DICDI | 2667 | 237 | 2624 | 29.8 | 2459 | 1577 | 150 | 889.0 | 1.3e-256 | sp|Q54WR2|GCN1_DICDI eIF-2-alpha kinase activator GCN1 OS=Dictyostelium discoideum OX=44689 GN=gcn1 PE=3 SV=1 |
Isoform0000002 | 8163 | 2206 | 7869 | sp|Q10105|GCN1_SCHPO | 2670 | 744 | 2623 | 30.3 | 1933 | 1249 | 98 | 790.0 | 8.3e-227 | sp|Q10105|GCN1_SCHPO eIF-2-alpha kinase activator gcn1 OS=Schizosaccharomyces pombe (strain 972 / ATCC 24843) OX=284812 GN=gcn1 PE=3 SV=1 |
Isoform0000002 | 8163 | 2902 | 7788 | sp|P33892|GCN1_YEAST | 2672 | 941 | 2587 | 31.6 | 1680 | 1065 | 84 | 763.1 | 1.1e-218 | sp|P33892|GCN1_YEAST eIF-2-alpha kinase activator GCN1 OS=Saccharomyces cerevisiae (strain ATCC 204508 / S288c) OX=559292 GN=GCN1 PE=1 SV=1 |
Isoform0000002 | 8163 | 4081 | 4965 | sp|O94489|EF3_SCHPO | 1047 | 28 | 324 | 33.7 | 303 | 187 | 14 | 154.5 | 1.8e-35 | sp|O94489|EF3_SCHPO Elongation factor 3 OS=Schizosaccharomyces pombe (strain 972 / ATCC 24843) OX=284812 GN=tef3 PE=1 SV=1 |
Isoform0000003 | 8080 | 154 | 6948 | sp|F4I9T0|BCHB_ARATH | 2604 | 13 | 2281 | 90.1 | 2272 | 214 | 10 | 4088.1 | 0.0e+00 | sp|F4I9T0|BCHB_ARATH BEACH domain-containing protein B OS=Arabidopsis thaliana OX=3702 GN=BCHB PE=4 SV=1 |
Query_id | Subject_id | Identity | Align_length | Miss_match | Gap | Query_start | Query_end | Subject_start | Subject_end | E_value | Score | Subject_annotation |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Isoform0000001 | ath:AT2G26890 | 91.9 | 2574 | 182 | 7 | 404 | 8113 | 1 | 2552 | 0.0e+00 | 4575.4 | GRV2; DNAJ heat shock N-terminal domain-containing protein; K09533 DNAJC13; DnaJ homolog subfamily C member 13 |
Isoform0000001 | aly:9316911 | 91.9 | 2573 | 182 | 6 | 404 | 8113 | 1 | 2550 | 0.0e+00 | 4566.9 | dnaJ homolog subfamily C GRV2 isoform X1; K09533 DNAJC13; DnaJ homolog subfamily C member 13 |
Isoform0000001 | csat:104752588 | 91.2 | 2577 | 202 | 5 | 404 | 8122 | 1 | 2557 | 0.0e+00 | 4544.6 | dnaJ homolog subfamily C GRV2 isoform X3; K09533 DNAJC13; DnaJ homolog subfamily C member 13 |
Isoform0000001 | csat:104787049 | 91.1 | 2574 | 201 | 6 | 404 | 8113 | 1 | 2551 | 0.0e+00 | 4531.1 | dnaJ homolog subfamily C GRV2-like isoform X1; K09533 DNAJC13; DnaJ homolog subfamily C member 13 |
Isoform0000001 | crb:17889945 | 90.8 | 2572 | 215 | 5 | 425 | 8119 | 7 | 2563 | 0.0e+00 | 4516.1 | dnaJ homolog subfamily C GRV2 isoform X1; K09533 DNAJC13; DnaJ homolog subfamily C member 13 |
Isoform0000001 | csat:104703503 | 90.6 | 2577 | 215 | 6 | 404 | 8122 | 1 | 2555 | 0.0e+00 | 4505.7 | dnaJ homolog subfamily C GRV2-like; K09533 DNAJC13; DnaJ homolog subfamily C member 13 |
Isoform0000001 | brp:103829637 | 89.6 | 2576 | 233 | 7 | 410 | 8122 | 4 | 2549 | 0.0e+00 | 4463.7 | dnaJ homolog subfamily C GRV2 isoform X1; K09533 DNAJC13; DnaJ homolog subfamily C member 13 |
Isoform0000001 | bna:106358454 | 89.9 | 2565 | 227 | 6 | 443 | 8122 | 10 | 2548 | 0.0e+00 | 4463.7 | dnaJ homolog subfamily C GRV2 isoform X1; K09533 DNAJC13; DnaJ homolog subfamily C member 13 |
Isoform0000001 | boe:106340730 | 89.4 | 2569 | 241 | 6 | 431 | 8122 | 3 | 2545 | 0.0e+00 | 4448.7 | dnaJ homolog subfamily C GRV2 isoform X1; K09533 DNAJC13; DnaJ homolog subfamily C member 13 |
Isoform0000001 | rsz:108809004 | 89.2 | 2582 | 243 | 9 | 392 | 8122 | 4 | 2554 | 0.0e+00 | 4446.7 | dnaJ homolog subfamily C GRV2 isoform X1; K09533 DNAJC13; DnaJ homolog subfamily C member 13 |
Query_id | Query_length | Query_start | Query_end | Subject_id | Subject_length | Subject_start | Subject_end | Identity(%) | Positive | Gap | Align_length | Score | E_value | Subject_annotation |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Isoform0000001 | 8282 | 404 | 8113 | OAP09465.1 | 2554 | 1 | 2552 | 92 | 0.95 | 0.01 | 2573 | 4702 | 0.0 | KAM2 [Arabidopsis thaliana] |
Isoform0000001 | 8282 | 404 | 8113 | NP_180257.3 | 2554 | 1 | 2552 | 92 | 0.95 | 0.01 | 2573 | 4698 | 0.0 | DNAJ heat shock N-terminal domain-containing protein [Arabidopsis thaliana] |
Isoform0000001 | 8282 | 425 | 8095 | XP_006293547.1 | 2565 | 7 | 2555 | 92 | 0.95 | 0.01 | 2564 | 4684 | 0.0 | dnaJ homolog subfamily C GRV2 isoform X1 [Capsella rubella] |
Isoform0000001 | 8282 | 404 | 8113 | XP_020883985.1 | 2552 | 1 | 2550 | 92 | 0.95 | 0.01 | 2573 | 4679 | 0.0 | dnaJ homolog subfamily C GRV2 isoform X1 [Arabidopsis lyrata subsp. lyrata] [Arabidopsis lyrata] |
Isoform0000001 | 8282 | 404 | 8122 | XP_010473072.1 | 2557 | 1 | 2557 | 92 | 0.95 | 0.01 | 2576 | 4663 | 0.0 | PREDICTED: dnaJ homolog subfamily C GRV2 isoform X3 [Camelina sativa] |
Isoform0000001 | 8282 | 404 | 8122 | XP_019093469.1 | 2557 | 1 | 2557 | 92 | 0.95 | 0.01 | 2576 | 4657 | 0.0 | PREDICTED: dnaJ homolog subfamily C GRV2 isoform X4 [Camelina sativa] |
Isoform0000001 | 8282 | 404 | 8122 | XP_019093470.1 | 2556 | 1 | 2556 | 92 | 0.95 | 0.01 | 2576 | 4656 | 0.0 | PREDICTED: dnaJ homolog subfamily C GRV2 isoform X6 [Camelina sativa] |
Isoform0000001 | 8282 | 404 | 8113 | XP_010510846.1 | 2553 | 1 | 2551 | 92 | 0.95 | 0.01 | 2573 | 4648 | 0.0 | PREDICTED: dnaJ homolog subfamily C GRV2-like isoform X1 [Camelina sativa] |
Isoform0000001 | 8282 | 404 | 8122 | XP_006408610.1 | 2556 | 1 | 2556 | 91 | 0.94 | 0.01 | 2577 | 4612 | 0.0 | dnaJ homolog subfamily C GRV2 isoform X1 [Eutrema salsugineum] |
Isoform0000001 | 8282 | 404 | 8122 | XP_010417833.1 | 2555 | 1 | 2555 | 91 | 0.94 | 0.01 | 2576 | 4603 | 0.0 | PREDICTED: dnaJ homolog subfamily C GRV2-like [Camelina sativa] |
![]() |
Fig 4-6-1 GO 功能分类图 |
Isoform 高级功能注释信息给出 Isoform 的 CDS 预测、Pfam 蛋白结构域预测、SMART 蛋白结构域预测、R-Gene预测(植物)、PHI 数据库注释(细菌/真菌)、蛋白质特性及各种翻译后修饰位点预测等等。
ID | 5UTR start | 5UTR end | CDS start | CDS end | 3UTR start | 3UTR end | Nr-ID | Nr-Score | Nr-Evalue | Nr-annotation | Swissprot-ID | Swissprot-Score | Swissprot-Evalue | Swissprot-annotation | KOG-Protein-or-Domain | KOG-Score | KOG-Evalue | KOG-ID | KOG-Function-Description | KO-ID | KEGG-Evalue | KEGG-Score | KEGG-Gene | Pathway |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Isoform0000001 | 1 | 403 | 404 | 8113 | 8114 | 8282 | OAP09465.1 | 4702 | 0.0 | KAM2 [Arabidopsis thaliana] | sp|F4IVL6|GRV2_ARATH | 4575.4 | 0.0e+00 | sp|F4IVL6|GRV2_ARATH DnaJ homolog subfamily C GRV2 OS=Arabidopsis thaliana OX=3702 GN=GRV2 PE=1 SV=1 | At2g26890 | 4479.5 | 0.0e+00 | KOG1789 | Endocytosis protein RME-8, contains DnaJ domain | K09533//DNAJC13; DnaJ homolog subfamily C member 13 | 0 | 4575.4 | ath:AT2G26890 | -- |
Isoform0000002 | 1 | 75 | 76 | 7908 | 7909 | 8163 | XP_006397389.1 | 4813 | 0.0 | protein ILITYHIA isoform X2 [Eutrema salsugineum] | sp|F4I893|ILA_ARATH | 4222.9 | 0.0e+00 | sp|F4I893|ILA_ARATH Protein ILITYHIA OS=Arabidopsis thaliana OX=3702 GN=ILA PE=1 SV=1 | At1g64790 | 3843.1 | 0.0e+00 | KOG1242 | Protein containing adaptin N-terminal region | -- | -- | -- | -- | -- |
Isoform0000003 | 1 | 147 | 148 | 6948 | 6949 | 8080 | XP_009102748.1 | 4252 | 0.0 | BEACH domain-containing protein B isoform X1 [Brassica rapa] | sp|F4I9T0|BCHB_ARATH | 4088.1 | 0.0e+00 | sp|F4I9T0|BCHB_ARATH BEACH domain-containing protein B OS=Arabidopsis thaliana OX=3702 GN=BCHB PE=4 SV=1 | At1g58230 | 1885.2 | 0.0e+00 | KOG1787 | Kinase A-anchor protein Neurobeachin and related BEACH and WD40 repeat proteins | -- | -- | -- | -- | -- |
Isoform0000004 | 1 | 371 | 372 | 7625 | 7626 | 7989 | XP_020875427.1 | 4197 | 0.0 | histone-lysine N-methyltransferase ATXR3 [Arabidopsis lyrata subsp. lyrata] [Arabidopsis lyrata] | sp|O23372|ATXR3_ARATH | 3360.9 | 0.0e+00 | sp|O23372|ATXR3_ARATH Histone-lysine N-methyltransferase ATXR3 OS=Arabidopsis thaliana OX=3702 GN=ATXR3 PE=2 SV=2 | At4g15180 | 2943.3 | 0.0e+00 | KOG1080 | Histone H3 (Lys4) methyltransferase complex, subunit SET1 and related methyltransferases | K22748//ATXR3; [histone H3]-lysine4 N-trimethyltransferase ATXR3 [EC:2.1.1.354] | 0 | 3636.3 | aly:9304294 | ;ko00310//Lysine degradation//Amino acid metabolism//Metabolism |
Isoform0000005 | 1 | 64 | 65 | 7720 | 7721 | 7953 | NP_001320074.1 | 3848 | 0.0 | ribosome 60S biogenesis amino-terminal protein [Arabidopsis thaliana] | -- | -- | -- | -- | At4g27010 | 3678.6 | 0.0e+00 | KOG1791 | Uncharacterized conserved protein | K14861//URB1; nucleolar pre-ribosomal-associated protein 1 | 0 | 3846.2 | aly:9303601 | -- |
Isoform0000006 | 1 | 52 | 53 | 7441 | 7442 | 7827 | NP_001189602.1 | 4483 | 0.0 | zinc finger FYVE domain protein [Arabidopsis thaliana] | -- | -- | -- | -- | At2g25730 | 3844.3 | 0.0e+00 | KOG1811 | Predicted Zn2+-binding protein, contains FYVE domain | K19027//ZFYVE26; zinc finger FYVE domain-containing protein 26 | 0 | 4236.8 | ath:AT2G25730 | -- |
Isoform0000007 | 1 | 28 | 29 | 2140 | 2141 | 7649 | NP_001323787.1 | 1081 | 0.0 | transducin family protein / WD-40 repeat family protein [Arabidopsis thaliana] | -- | -- | -- | -- | At2g46560 | 1824.7 | 0.0e+00 | KOG1064 | RAVE (regulator of V-ATPase assembly) complex subunit RAV1/DMX protein, WD repeat superfamily | -- | -- | -- | -- | -- |
Isoform0000008 | 1 | 4327 | 4328 | 7609 | 7610 | 7684 | OAO99106.1 | 1503 | 0.0 | EMB2788 [Arabidopsis thaliana] | -- | -- | -- | -- | At4g27010 | 1446.8 | 0.0e+00 | KOG1791 | Uncharacterized conserved protein | K14861//URB1; nucleolar pre-ribosomal-associated protein 1 | 0 | 1506.5 | aly:9303601 | -- |
Isoform0000009 | 1 | 80 | 81 | 7529 | 7530 | 7658 | XP_024010767.1 | 4771 | 0.0 | piezo-type mechanosensitive ion channel homolog isoform X1 [Eutrema salsugineum] | sp|F4IN58|PIEZO_ARATH | 4544.6 | 0.0e+00 | sp|F4IN58|PIEZO_ARATH Piezo-type mechanosensitive ion channel homolog OS=Arabidopsis thaliana OX=3702 GN=At2g48060/At2g48040/At2g48050 PE=2 SV=1 | At2g48050 | 2724.5 | 0.0e+00 | KOG1893 | Uncharacterized conserved protein | K22128//PIEZO1_2; piezo-type mechanosensitive ion channel component 1/2 | 0 | 4615.4 | aly:9318211 | -- |
Isoform0000010 | 1 | 1086 | 1087 | 7272 | 7273 | 7646 | XP_024010006.1 | 3646 | 0.0 | mediator of RNA polymerase II transcription subunit 12 [Eutrema salsugineum] | sp|H3K2Y6|MED12_ARATH | 3510.7 | 0.0e+00 | sp|H3K2Y6|MED12_ARATH Mediator of RNA polymerase II transcription subunit 12 OS=Arabidopsis thaliana OX=3702 GN=MED12 PE=1 SV=1 | At4g00450 | 3159.4 | 0.0e+00 | KOG4522 | RNA polymerase II transcription mediator | -- | -- | -- | -- | -- |
![]() |
![]() |
|
Fig 5-1-1 3UTR长度分布图 | Fig 5-1-2 5UTR长度分布图 | |
Pfam(Protein families database of alignments and hidden Markov models )是一个基于多重序列比对以及隐马尔可夫模型(HMM)预测的方法而收录的大量蛋白质结构信息的数据库,被广泛用来做蛋白结构域预测及蛋白家族分析。
Pfam 包括 PfamA 和 PfamB。其中 PfamA 中所包含的蛋白结构数据都是已知并且得到验证的,每个蛋白结构域都有各自的定义(definition)。而 PfamB 中的数据是通过模型和算法预测出来的,并且未得到验证,是对 PfamA 的补充
Pfam 蛋白结构域的预测是使用 sanger 开发的 Pfam_Scan 程序测 Isoform 编码的蛋白序列后,同 Pfam 数据库进行比对(我们使用的 Pfam 版本号为 26.0), 得到Isoform 编码的蛋白结构相关注释信息。
seq id | alignment start | alignment end | envelope start | envelope end | hmm acc | hmm name | type | hmm start | hmm end | hmm length | bit score | E-value | significance | clan | PfamA_definition |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Isoform0000001 | 1173 | 1223 | 1173 | 1223 | PF14237.6 | GYF_2 | Domain | 1 | 50 | 50 | 41.6 | 8.1e-11 | 1 | CL0673 | GYF domain 2 |
Isoform0000001 | 1541 | 1581 | 1534 | 1585 | PF00226.31 | DnaJ | Domain | 11 | 54 | 63 | 43.7 | 2.3e-11 | 1 | CL0392 | DnaJ domain |
Isoform0000003 | 439 | 610 | 438 | 611 | PF13385.6 | Laminin_G_3 | Domain | 2 | 151 | 152 | 35.4 | 1.1e-08 | 1 | CL0004 | Concanavalin A-like lectin/glucanases superfamily |
Isoform0000003 | 683 | 958 | 682 | 959 | PF15787.5 | DUF4704 | Family | 2 | 278 | 279 | 264.7 | 8.2e-79 | 1 | No_clan | Domain of unknown function (DUF4704) |
Isoform0000003 | 1556 | 1648 | 1538 | 1650 | PF16057.5 | DUF4800 | Family | 154 | 243 | 254 | 38.5 | 7.5e-10 | 1 | No_clan | Domain of unknown function (DUF4800) |
Isoform0000003 | 1758 | 1893 | 1758 | 1898 | PF14844.6 | PH_BEACH | Domain | 1 | 95 | 100 | 44.8 | 1e-11 | 1 | CL0266 | PH domain associated with Beige/BEACH |
Isoform0000003 | 1936 | 2212 | 1935 | 2212 | PF02138.18 | Beach | Family | 2 | 276 | 276 | 404.4 | 2.2e-121 | 1 | No_clan | Beige/BEACH domain |
Isoform0000004 | 1936 | 1988 | 1853 | 1988 | PF00856.28 | SET | Family | 111 | 169 | 169 | 40.9 | 2.7e-10 | 1 | No_clan | SET domain |
Isoform0000005 | 85 | 380 | 84 | 381 | PF11707.8 | Npa1 | Family | 2 | 338 | 339 | 169.4 | 1.3e-49 | 1 | No_clan | Ribosome 60S biogenesis N-terminal |
Isoform0000005 | 1982 | 2171 | 1981 | 2171 | PF16201.5 | NopRA1 | Family | 2 | 201 | 201 | 150.9 | 3.2e-44 | 1 | No_clan | Nucleolar pre-ribosomal-associated protein 1 |
GeneID | Length | Domain_Start | Domain_End | SMART_Domain | E-value | Score | Domain-c-Evalue | Domain-i-Evalue | Domain-Score |
---|---|---|---|---|---|---|---|---|---|
Isoform0001558 | 1235 | 393 | 579 | AAA | 3.1e-39 | 130.6 | 2.4e-19 | 2.5e-18 | 62.9 |
Isoform0001558 | 1235 | 1022 | 1213 | AAA | 3.1e-39 | 130.6 | 4.2e-20 | 4.4e-19 | 65.3 |
Isoform0001522 | 1235 | 393 | 579 | AAA | 5e-39 | 129.9 | 2.4e-19 | 2.5e-18 | 62.9 |
Isoform0001522 | 1235 | 1022 | 1210 | AAA | 5e-39 | 129.9 | 6.9e-20 | 7.2e-19 | 64.6 |
Isoform0001154 | 1281 | 412 | 601 | AAA | 1.9e-38 | 128.0 | 2e-18 | 2.1e-17 | 59.9 |
Isoform0001154 | 1281 | 1064 | 1255 | AAA | 1.9e-38 | 128.0 | 2.8e-20 | 2.9e-19 | 65.9 |
Isoform0001260 | 1282 | 412 | 601 | AAA | 2e-38 | 128.0 | 2e-18 | 2.1e-17 | 59.9 |
Isoform0001260 | 1282 | 1065 | 1256 | AAA | 2e-38 | 128.0 | 2.8e-20 | 2.9e-19 | 65.9 |
Isoform0001583 | 1224 | 333 | 518 | AAA | 1e-37 | 125.7 | 3.7e-19 | 3.9e-18 | 62.3 |
Isoform0001583 | 1224 | 989 | 1213 | AAA | 1e-37 | 125.7 | 7.8e-19 | 8.1e-18 | 61.2 |
分析的物种是植物或者动物,我们将预测的蛋白序列同相应的 TF 数据库(plant TFdb/animal TFdb)进行 hmmscan 比对。
![]() |
Fig 5-4-1 TF 家族分布(前10) |
若分析的物种是植物,我们将预测的蛋白序列同相应的 R-Gene 数据库(PRGdb)进行 blastp 比对。
Unigene_ID | PRGID | Name | Type | Species | Class | GenBank ID | GenBank Locus | Description | E-value | Score |
---|---|---|---|---|---|---|---|---|---|---|
Isoform0000018 | PRGDB00201987 | Bra027598 | Putative_R-Genes,_predicted_from_Pythozome | Brassica rapa | TNL | -- | -- | -- | 0.0 | 1776 |
Isoform0000019 | PRGDB00206816 | LOC_Os10g21950.1 | Putative_R-Genes,_predicted_from_Pythozome | Oryza sativa | NL | -- | -- | -- | 3e-135 | 460 |
Isoform0000022 | PRGDB00061511 | disease resistance protein | Putative_R-Genes,_collected_from_NCBI_Protein | Brassica rapa subsp. pekinensis | TNL | 227438238 | FJ842828 | Brassica rapa subsp. pekinensis isolate BrTNL10 disease resistance protein gene, complete cds. | 1e-60 | 231 |
Isoform0000043 | PRGDB00206903 | LOC_Os02g16090.1 | Putative_R-Genes,_predicted_from_Pythozome | Oryza sativa | CN | -- | -- | -- | 6e-78 | 280 |
Isoform0000104 | PRGDB00203241 | Carubv10025445m | Putative_R-Genes,_predicted_from_Pythozome | Capsella rubella | N | -- | -- | -- | 0.0 | 3465 |
Isoform0000116 | PRGDB00201779 | Bra012688 | Putative_R-Genes,_predicted_from_Pythozome | Brassica rapa | TNL | -- | -- | -- | 0.0 | 1264 |
Isoform0000133 | PRGDB00206903 | LOC_Os02g16090.1 | Putative_R-Genes,_predicted_from_Pythozome | Oryza sativa | CN | -- | -- | -- | 5e-79 | 283 |
Isoform0000158 | PRGDB00147219 | Bradi4g25570.1 | Putative_R-Genes,_predicted_from_Pythozome | Ricinus communis | CN | -- | -- | Clathrin, heavy chain (best arabidopsis hit); clathrin heavy chain, putative, expressed (best rice hit) | 0.0 | 621 |
Isoform0000160 | PRGDB00160907 | Egrandis_v1_0.003113m | Putative_R-Genes,_predicted_from_Pythozome | Areca catechu | N | -- | -- | Actin-binding FH2 (Formin Homology) protein (best arabidopsis hit) | 2e-105 | 352 |
Isoform0000169 | PRGDB00147219 | Bradi4g25570.1 | Putative_R-Genes,_predicted_from_Pythozome | Ricinus communis | CN | -- | -- | Clathrin, heavy chain (best arabidopsis hit); clathrin heavy chain, putative, expressed (best rice hit) | 0.0 | 617 |
![]() |
Fig 5-5-1 R-Gene分类(前10) |
Unigene_ID | Length | ExpAA | First60 | PredHel | Topology |
---|---|---|---|---|---|
Isoform0000415 | 108 | 8.86 | 0.01 | 0 | o |
Isoform0000510 | 100 | 0.02 | 0.00 | 0 | o |
Isoform0000692 | 113 | 34.51 | 27.68 | 1 | i13-35o |
Isoform0004175 | 102 | 0.00 | 0.00 | 0 | o |
Isoform0004358 | 102 | 0.00 | 0.00 | 0 | o |
Isoform0004424 | 102 | 0.00 | 0.00 | 0 | o |
Isoform0004434 | 102 | 0.00 | 0.00 | 0 | o |
Isoform0004479 | 102 | 0.00 | 0.00 | 0 | o |
Isoform0004521 | 102 | 0.00 | 0.00 | 0 | o |
Isoform0004535 | 472 | 0.00 | 0.00 | 0 | o |
Unigene_ID | Cleavage_Site | Cmax | C-pos | Ymax | Y-pos | Smax | S-pos | Smean | D | If_SignalP |
---|---|---|---|---|---|---|---|---|---|---|
Isoform0025400 | 24-25 | 0.331 | 25 | 0.457 | 25 | 0.767 | 19 | 0.596 | 0.512 | Y |
Isoform0034705 | 29-30 | 0.718 | 30 | 0.732 | 30 | 0.986 | 13 | 0.798 | 0.768 | Y |
Isoform0000009 | 79-80 | 0.817 | 80 | 0.813 | 80 | 0.922 | 75 | 0.515 | 0.694 | Y |
Isoform0000014 | 141-142 | 0.715 | 142 | 0.709 | 142 | 0.862 | 143 | 0.251 | 0.526 | Y |
Isoform0000040 | 75-76 | 0.778 | 58 | 0.736 | 76 | 0.853 | 68 | 0.331 | 0.574 | Y |
Isoform0000104 | 49-50 | 0.609 | 50 | 0.691 | 50 | 0.907 | 42 | 0.469 | 0.602 | Y |
Isoform0000141 | 44-45 | 0.713 | 45 | 0.704 | 45 | 0.937 | 97 | 0.318 | 0.550 | Y |
Isoform0000170 | 58-59 | 0.741 | 117 | 0.657 | 59 | 0.777 | 51 | 0.379 | 0.546 | Y |
Isoform0000194 | 269-270 | 0.768 | 270 | 0.735 | 270 | 0.891 | 265 | 0.243 | 0.538 | Y |
Isoform0000231 | 108-109 | 0.744 | 109 | 0.698 | 109 | 0.782 | 102 | 0.219 | 0.506 | Y |
Unigene_ID | Length | Oglyc_Site | S_num | T_num | S_and_T_num | Oglyc_Site_num |
---|---|---|---|---|---|---|
Isoform0001951 | 1035 | -- | 108 | 50 | 158 | 0 |
Isoform0001952 | 581 | -- | 66 | 22 | 88 | 0 |
Isoform0001953 | 1012 | -- | 95 | 51 | 146 | 0 |
Isoform0001954 | 1187 | 794T | 119 | 47 | 166 | 1 |
Isoform0001955 | 547 | -- | 29 | 29 | 58 | 0 |
Isoform0001956 | 862 | -- | 100 | 28 | 128 | 0 |
Isoform0001957 | 549 | -- | 48 | 17 | 65 | 0 |
Isoform0001958 | 1108 | 24S,26S,27S,28S,29S,30S,31S,32S,34S,37S,38S,42T,43T | 85 | 39 | 124 | 13 |
Isoform0001959 | 1009 | 476T | 102 | 35 | 137 | 1 |
Isoform0001960 | 819 | -- | 61 | 44 | 105 | 0 |
Unigene_ID | Length | Prop_Site | R_num | K_num | R_and_K_num | Prop_Site_num |
---|---|---|---|---|---|---|
Isoform0000001 | 2570 | 42R,767R,778R,1272R | 149 | 92 | 241 | 4 |
Isoform0000002 | 2611 | 152R,2193R | 139 | 140 | 279 | 2 |
Isoform0000003 | 2267 | 1848R | 136 | 111 | 247 | 1 |
Isoform0000004 | 2418 | 293R,541R,976R,1445R,2409R | 187 | 177 | 364 | 5 |
Isoform0000005 | 2552 | 538R,2228R | 109 | 166 | 275 | 2 |
Isoform0000006 | 2463 | 697R,2043R | 152 | 121 | 273 | 2 |
Isoform0000007 | 704 | -- | 30 | 33 | 63 | 0 |
Isoform0000008 | 1094 | 615K | 52 | 69 | 121 | 1 |
Isoform0000009 | 2483 | -- | 131 | 93 | 224 | 0 |
Isoform0000010 | 2062 | 14K,697R | 144 | 104 | 248 | 2 |
ID | SSR nr. | SSR type | SSR | size | start | end |
---|---|---|---|---|---|---|
Isoform0000010 | 1 | p3 | (TCT)7 | 21 | 69 | 89 |
Isoform0000014 | 1 | p4 | (TTCT)4 | 16 | 31 | 46 |
Isoform0000018 | 1 | p3 | (ATG)7 | 21 | 6969 | 6989 |
Isoform0000021 | 1 | c | (TC)6ccttcccttc(CT)6 | 34 | 155 | 188 |
Isoform0000023 | 1 | p2 | (GA)7 | 14 | 344 | 357 |
Isoform0000025 | 1 | p2 | (TC)9 | 18 | 187 | 204 |
Isoform0000027 | 1 | p3 | (GCA)6 | 18 | 397 | 414 |
Isoform0000028 | 1 | c | (GCAACA)4tcctccaccgctttc(GCA)6 | 57 | 343 | 399 |
Isoform0000030 | 1 | p3 | (TCT)5 | 15 | 209 | 223 |
Isoform0000032 | 1 | p3 | (ATG)8 | 24 | 6146 | 6169 |
![]() |
![]() |
|
Fig 6-1-1 不同串联重复单元类型的 SSR 在总 SSR 中所占比例的统计图 | Fig 6-1-2 SSR 分布图 | |
X 坐标为 SSR 类型,Y 坐标数值是 m 个碱基重复 n 次发生的次数,具体重复的次数应按照颜色与图例对 应,Z 坐标是 SSR 数目 |
![]() |
Fig 6-2-1 CNCI和CPC预测结果的维恩图 |
total isoform | the number of mRNA | the number of lncRNA |
---|---|---|
34949 | 34728 | 221 |
Family_Name | Family_Accession | LncRNA | Strand | E-value | Score |
---|
![]() |
![]() |
|
Fig 6-3-1 转录本数目统计 | Fig 6-3-2 可变剪切类型统计 | |
该图统计基因含有isoform数目的个数。纵坐标表示含有多少个isoform,横坐标表示含有对应数目isoform的基因个数以及百分比。 | 横坐标表示可变剪切的类型,纵坐标表示该种可变剪切类型的数量 |
Fig 6-3-3
├── 1.smrtlink │ ├── CCS.stat.xls CCS分析结果统计表格 │ ├── cdhit.stat.xls │ ├── *ccs_npasses_hist.pdf(png) CCS passes分布图 │ ├── *ccs_readlength_hist.pdf(png) CCS长度分布图 │ ├── *consensus_isoforms_readlength_hist.pdf(png) 一致性序列长度分布图 │ ├── *fulllength_nonchimeric_readlength_hist.pdf(png) 全长非杂合序列长度分布图 │ ├── *hq_lq_isoforms_avgqv_hist.pdf(png) Hq、Lq isoforms平均质量分布图 │ ├── classify.pie.pdf(png) Reads分类图 │ ├── classify.stat.xls Classify分析结果统计表 │ ├── cluster.stat.xls Cluster分析结果统计表 │ ├── correction.stat.xls 二代矫正三代之后的统计表格 │ ├── isoform_length_distribution.pdf(png) ISOseq 序列 长度分布图 │ ├── rawdata.len.stat.pdf(png) 原始数据长度分布图 │ ├── rawdata_stat.xls 原始数据统计表 │ └── *_isoforms.fasta ISOseq 序列 ├── 2.basic │ ├── 4_database │ │ ├── 4_database_anno.stat.txt 四大数据库注释统计结果表 │ │ └── venn.svg(png) 四大数据库注释的 Venn 图 │ ├── All_Unigene.basic.annotation.xls 注释结果汇总表 │ ├── COG_KOG │ │ ├── *.blast.kog.xls KOG/COG 数据库的blast比对结果 │ │ ├── *.kog.class.annot.xls KOG/COG 分类文件 │ │ ├── *.kog.gene.annot.xls KOG/COG 注释 │ │ ├── *.kog.pdf(png) KOG/COG 分类图 │ ├── evalue │ │ ├── evalue.KEGG.stat.xls KEGG 数据库注释中的 E 值分布表 │ │ ├── evalue.KEGG.stat.xls.pie.pdf(png) KEGG 数据库注释中的 E 值分布图 │ │ ├── evalue.KOG.stat.xls KOG 数据库注释中的 E 值分布表 │ │ ├── evalue.KOG.stat.xls.pie.pdf(png) KOG 数据库注释中的 E 值分布图 │ │ ├── evalue.Nr.stat.xls Nr 数据库注释中的 E 值分布表 │ │ ├── evalue.Nr.stat.xls.pie.pdf(png) Nr 数据库注释中的 E 值分布图 │ │ ├── evalue.Swissprot.stat.xls Swissprot 数据库注释中的 E 值分布表 │ │ ├── evalue.Swissprot.stat.xls.pie.pdf(png) Swissprot 数据库注释中的 E 值分布图 │ ├── GO │ │ ├── *.gene2GO.xls GO 注释 │ │ ├── *.GO2gene.xls GO 分类文件 │ │ └── *.GO.svg(png) GO 分类图 │ ├── KEGG │ │ ├── *.blast.kegg.xls KEGG 数据库的blast比对的结果 │ │ ├── *.htm Parhway 分析结果网页报告 │ │ ├── *.ko.txt Isoform ID 对应 KO 号列表 │ │ ├── *_map Parhway 代谢通路图(文件夹) │ │ └── *.path.xls Pathway 列表 │ ├── Nr │ │ └── *.blast.Nr.xls Nr 数据库的blast比对的结果 │ ├── Nr.species.stat.xls 物种分布统计表 │ ├── Nr.species.stat.xls.svg(png) 物种分布统计图 │ └── Swissprot │ └── *.blast.swsp.xls Swissprot 数据库的blast比对的结果 ├── 3.advance │ ├── 1.CDS │ │ ├── 3UTR_length_distribution.pdf(png) 3'utr 长度分布图 │ │ ├── 5UTR_length_distribution.pdf(png) 5'utr 长度分布图 │ │ ├── *cds.fa 预测的cds系列 │ │ ├── *pep.fa 蛋白序列 │ │ ├── *utr.fa utr 序列 │ │ └── *.structure.xls ISOseq 序列的结构 │ ├── 2.Pfam │ │ └── *.protein.pfamA.xls Pfam 蛋白结构相关注释汇总表 │ ├── 3.SMART │ │ └── *.protein.SMART.xls SMART 蛋白结构相关注释汇总表 │ │ ├── *.gene_tf.xls TF 相关注释统计表 │ │ ├── *.head10.TF.pdf(png) TF统计图 │ │ ├── *.TF.class.xls TF 分类统计表 │ │ ├── *.TF.pdf(png) │ ├── 5.Rgene │ │ ├── RGENE.class.xls R-Gene 分类统计表 │ │ ├── *.protein.RGENE.pdf(png) R-Gene 分类统计图 │ │ └── *.protein.RGENE.xls R-Gene 相关注释统计表 │ ├── 6.tmhmm │ │ └── *.protein.tmhmm.xls TMHMM 注释表 │ ├── 7.SignalP │ │ └── *.protein.SignalP.xls SignalP 注释表 │ ├── 8.netOglyc │ │ └── *.protein.netOglyc.xls netOglyc 注释表 │ └── 9.prop │ └── *.protein.prop.xls prop 注释表 ├── 4.structure │ ├── 1.SSR │ │ ├── *.misa.xls SSR 结果表 │ │ ├── *.primer.xls SSR 引物设计表格 │ │ ├── *.statistics.classify.txt SSR 分类表 │ │ ├── *.statistics.drawSVG.svg(png) SSR 分布图 │ │ ├── *.statistics.drawSVG.txt SSR 分布图所用的统计数据 │ │ ├── *.statistics.SSR.pdf (png) SSR 分类图 │ │ └── *.statistics.totality.txt SSR 类型统计表 │ ├── 2.LncRNA │ │ ├── family.xls lncRNA家族分析 │ │ ├── lncRNA.fa lncRNA序列 │ │ ├── venn.svg(png) cnci和cpc注释的 Venn 图 │ │ └── lncRNA_stat.xls lncRNA 统计汇总表 │ └── 3.AS │ ├── AS_grap 可变剪切图片 │ ├── AS.stat.pdf(png) 可变剪切类型统计图 │ ├── AS.stat.xls 可变剪切类型统计表 │ ├── AS.xls 可变剪切类型表格 │ ├── cogent.cdhit.fa cogent 组装的序列 │ ├── gmap.out.filter.gtf ISOseq 比对cogent组装序列的gff 表格 │ ├── isoform.stat.pdf(png) isoform 统计图 │ └── isoform.stat.xls isoform 统计表 ├── index.html └── src