1 项目概述

项目编号 GDE21030165-1_std_1
项目名称 Capsicum annuum ------ 2 DAP-seq
参考基因组 Annuum.v1.6
样品名称 HY5-IP   ¦   HY5-input

2 项目介绍

DNA亲和纯化测序(DAP-seq,DNA Affinity Purification sequencing),通过体外构建表达转录因子(TF,Transcription Factor)蛋白,与目标基因组片段结合,由此可以把目的蛋白所结合的基因组DNA片段富集下来。通过与高通量测序技术的结合,对DAP后的DNA产物进行测序分析,从全基因组范围内寻找目的蛋白的DNA结合位点,以高效率的测序手段得到高通量的数据结果。

2.1 建库流程

得到 DNA 样品后,首先对样品进行质量检测。样品质量检测合格后,进行文库构建,具体步骤如下:

1. DNA超声打断至约200bp大小,末端修复,3’ 端加A碱基,连接测序接头。

2. 在DAP实验完成后,进行DNA片段的PCR扩增,产物纯化。

3. 文库构建完成后,对文库质量进行检测,合格的文库用于上机测序。


Fig 2-1-1 DAP-seq实验建库流程图

2.2 信息分析流程

对下机数据进行数据过滤,去掉低质量数据。将过滤后数据与参考基因组进行比对,确认比对质量合格后,提取比对上唯一位置的序列,进行信息分析处理,得到标准信息分析结果和个性化分析结果。具体信息分析流程见图所示。

Fig 2-2-1 DAP-seq分析流程图

广州基迪奥生物科技有限公司




3 数据分析与质控

3.1 过滤信息统计
Tab 3-1-1 Reads 过滤信息统计表
SampleClean_Reads_NumHQ_Clean_Reads_Num(%)Read_lengthadapter(%)low_quality(%)polyA(%)N(%)
HY5-IP6449073464393612(99.85%)150 + 15025840(0.04%)141552(0.11%)0(0.0%)1012(0.0%)
HY5-input7497453074810720(99.78%)150 + 15041046(0.05%)244272(0.16%)0(0.0%)1256(0.0%)

Fig 3-1-1 样本过滤分析频数图 Fig 3-1-2 样本过滤分析比例图

3.2 碱基组成与质量分析
Tab 3-2-1 过滤前后碱基信息统计表
SampleClean_Data(bp)Q20(%)Q30(%)N(%)GC(%)HQ_Clean_Data(bp)HQ_Q20(%)HQ_Q30(%)HQ_N(%)HQ_GC(%)
HY5-IP96736101009445928400(97.65%)9021975232(93.26%)230978(0.0%)3161061017(32.67%)91285877138933418298(97.86%)8550390486(93.67%)212470(0.0%)2878456604(31.53%)
HY5-input1124617950011003136115(97.84%)10546340194(93.78%)283562(0.0%)4108370473(36.53%)1061416079110406559113(98.04%)9993300953(94.15%)260942(0.0%)3779391554(35.61%)

  • HY5-IP
  • HY5-input

Fig 3-2-1 过滤前后碱基分布


广州基迪奥生物科技有限公司




4 比对分析

4.1 比对基因组统计

利用比对软件 Bowtie2[1] 将数据比对到参考基因组,过滤掉低比对质量值的 reads ,最终将比对到基因组上唯一位置的 reads (唯一比对 reads )用于后续的信息分析。

Tab 4-1-1 各样品比对参考基因组统计结果
Sample_IDTotal_ReadsUnMapped_ReadsMapped_ReadsMulti_Mapped_ReadsUnique_Mapped_ReadsDuplicate_Reads
HY5-IP643936122166647-3.36%62226965-96.64%32784779-50.91%29442186-45.72%14552266-23.39%
HY5-input748107201998186-2.67%72812534-97.33%37251828-49.79%35560706-47.53%9104476-12.50%

4.2 基因组测序深度累积分布

以比对后得到的唯一比对序列为分析对象,分析其在参考基因组上的覆盖分布,统计基因组位点的深度信息,得到基因组上测序深度统计结果。

  • HY5-IP
  • HY5-input

Fig 4-2-1 测序深度累积分布统计图


4.3 基因组测序深度分布

利用 deepTools[2] 软件对转录起始位点(TSS)到转录终止位点(TES)区间,及基因上下游 2k 区间的所有 reads 进行统计,设置大小为 50bp 的窗口,计算每个窗口内的平均 reads 深度,并绘制出 reads 相对于基因特定位置的分布折线图。

  • HY5-IP
  • HY5-input

Fig 4-3-1 测序深度分布图


4.4 测序饱和度分析

测序饱和度分析是用来衡量一个样品的测序量是否达到饱和的标准。随着测序量(reads数量)的增多,检测到的基因数也随之上升。当测序量达到某个值时,其检测到的基因数增长速度趋于平缓,说明检测到的基因数趋于饱和,如下图所示:

  • HY5-IP
  • HY5-input

Fig 4-4-1 测序饱和度分布


4.5 Reads在染色体上的分布

将唯一比对、去重复后的 reads 比对到基因组上各个染色体(分正负链)的密度进行统计。

  • HY5-IP
  • HY5-input

Fig 4-5-1 reads在染色体上的分布图


广州基迪奥生物科技有限公司




5 Peak分析

测序分析 DAP 后的 DNA 产物,从全基因组范围内寻找目的蛋白与 DNA 的结合位点,利用 MACS2[3] 分析软件在全基因组范围进行 peak(DAP Sequencing富集区域)扫描(peak calling),阈值为 q-value<0.05 ,并对 peak 在基因组上的位置信息, peak 区域序列信息等进行分析,筛选出 peak 相关基因。我们将对各处理组分别检测peak。如果一个处理组有多个生物学重复,MACS软件将合并多个生物学重复的数据,输出统一的peak数据。

5.1 PeakCalling
Tab 5-1-1 各样本 peak 数目统计表
SampleIdPeakNumberTotalLengthAverageLengthTotalPileupAveragePileupGenomeRatio(%)FRiP(%)
HY5-IP23561579506024523089190.19%3.09%

Tab 5-1-2 样本 HY5-IP peaks结果信息统计表(前10行)
chrstartendlengthabs_summitpileup-log10(pvalue)fold_enrichment-log10(qvalue)name
PGAv.1.6.scaffold10061544971546621661545459.007.165775.134233.75201HY5-IP_peak_1
PGAv.1.6.scaffold10062760992762631652762006.005.251234.238442.34408HY5-IP_peak_2
PGAv.1.6.scaffold10062790042791781752791019.007.190685.149893.77084HY5-IP_peak_3
PGAv.1.6.scaffold10063312493315523043314729.006.289414.577413.12580HY5-IP_peak_4
PGAv.1.6.scaffold100647556447613957647571220.0019.4697610.1058814.41852HY5-IP_peak_5
PGAv.1.6.scaffold10065164455168003565167167.004.758103.849862.02914HY5-IP_peak_6
PGAv.1.6.scaffold10065244865246771925245578.007.488125.449423.95920HY5-IP_peak_7
PGAv.1.6.scaffold100663217163253436463221311.007.363454.923423.91330HY5-IP_peak_8
PGAv.1.6.scaffold10066377316378971676377556.004.725243.915462.02914HY5-IP_peak_9
PGAv.1.6.scaffold10232054152057443302054737.004.967923.986162.17303HY5-IP_peak_10

5.2 Peak长度分布
Fig 5-2-1 HY5-IP

5.3 Peak深度分布
Fig 5-3-1 HY5-IP

5.4 Peak富集倍数分布
Fig 5-4-1 HY5-IP

5.5 Peak置信程度分布
Fig 5-5-1 HY5-IP

广州基迪奥生物科技有限公司




6 Peak注释

利用 ChIPseeker[4] R包,对 peak 相关基因进行注释。

6.1 Peak相关基因分析

根据peak在基因组上的区域信息及基因的注释信息,得到关于peak相关基因,从一定程度上表示了目的蛋白或特定组蛋白修饰可能调控的靶基因区域。

Tab 6-1-1 样本HY5-IP peak相关基因注释表(前10行)
peak_namechrstartendlengthabs_summitpileupfold_enrichment-log10(pvalue)-log10(qvalue)annotationgeneChrgeneStartgeneEndgeneLengthexonNumbergeneStrandgeneIdtranscriptIddistToTSSSymbolDescriptionKEGG_A_classKEGG_B_classPathwayK_IDGO_ComponentGO_FunctionGO_Process
HY5-IP_peak_3PGAv.1.6.scaffold10062790042791781752791019.005.149897.190683.77084Downstream (<1kb)PGAv.1.6.scaffold100627931728471553997-CA.PGAv.1.6.scaffold1006.4TC.CA.PGAv.1.6.scaffold1006.45614At2g44560Endoglucanase 15 [Capsicum annuum]Metabolism;MetabolismGlobal and overview maps;Carbohydrate metabolismko01100//Metabolic pathways;ko00500//Starch and sucrose metabolismK01179;K01179GO:0043231//intracellular membrane-bounded organelleGO:0004553//hydrolase activity, hydrolyzing O-glycosyl compoundsGO:0005976//polysaccharide metabolic process;GO:0009987//cellular process
HY5-IP_peak_6PGAv.1.6.scaffold10065164455168003565167167.003.849864.758102.02914Promoter (<=1kb)PGAv.1.6.scaffold100651298951643034425-CA.PGAv.1.6.scaffold1006.8TC.CA.PGAv.1.6.scaffold1006.8-286--PREDICTED: universal stress protein A homolog 1-like [Capsicum annuum]----GO:0016020//membrane;GO:0043231//intracellular membrane-bounded organelle-GO:0010033//response to organic substance
HY5-IP_peak_7PGAv.1.6.scaffold10065244865246771925245578.005.449427.488123.95920Intron (TC.CA.PGAv.1.6.scaffold1006.9/CA.PGAv.1.6.scaffold1006.9, intron 1 of 2)PGAv.1.6.scaffold100652238852475023633-CA.PGAv.1.6.scaffold1006.9TC.CA.PGAv.1.6.scaffold1006.9193APICPREDICTED: glutathione S-transferase [Capsicum annuum]Metabolism;MetabolismGlobal and overview maps;Metabolism of other amino acidsko01100//Metabolic pathways;ko00480//Glutathione metabolismK00799;K00799GO:0005576//extracellular region;GO:0005911//cell-cell junction;GO:0009526//plastid envelope;GO:0009532//plastid stroma;GO:0016020//membrane;GO:0030312//external encapsulating structureGO:0016765//transferase activity, transferring alkyl or aryl (other than methyl) groups;GO:0043168//anion binding;GO:0046914//transition metal ion binding;GO:0097159//organic cyclic compound bindingGO:0006970//response to osmotic stress;GO:0009404//toxin metabolic process;GO:0009617//response to bacterium;GO:0009755//hormone-mediated signaling pathway;GO:0010038//response to metal ion;GO:0050832//defense response to fungus
HY5-IP_peak_8PGAv.1.6.scaffold100663217163253436463221311.004.923427.363453.91330Promoter (1-2kb)PGAv.1.6.scaffold1006633694643278958512+CA.PGAv.1.6.scaffold1006.14TC.CA.PGAv.1.6.scaffold1006.14-1481XPDTFIIH basal transcription factor complex helicase XPD subunit [Capsicum annuum]Genetic Information Processing;Genetic Information ProcessingReplication and repair;Transcriptionko03420//Nucleotide excision repair;ko03022//Basal transcription factorsK10844;K10844GO:0043231//intracellular membrane-bounded organelleGO:0003676//nucleic acid binding;GO:0003678//DNA helicase activity;GO:0032550//purine ribonucleoside binding;GO:0042623//ATPase activity, coupled;GO:0043169//cation binding;GO:0051536//iron-sulfur cluster bindingGO:0000302//response to reactive oxygen species;GO:0000725//recombinational repair;GO:0006355//regulation of transcription, DNA-templated;GO:0006464//cellular protein modification process;GO:0008380//RNA splicing;GO:0009408//response to heat;GO:0009642//response to light intensity;GO:0032392//DNA geometric change
HY5-IP_peak_9PGAv.1.6.scaffold10066377316378971676377556.003.915464.725242.02914Intron (TC.CA.PGAv.1.6.scaffold1006.14/CA.PGAv.1.6.scaffold1006.14, intron 2 of 11)PGAv.1.6.scaffold1006633694643278958512+CA.PGAv.1.6.scaffold1006.14TC.CA.PGAv.1.6.scaffold1006.144061XPDTFIIH basal transcription factor complex helicase XPD subunit [Capsicum annuum]Genetic Information Processing;Genetic Information ProcessingReplication and repair;Transcriptionko03420//Nucleotide excision repair;ko03022//Basal transcription factorsK10844;K10844GO:0043231//intracellular membrane-bounded organelleGO:0003676//nucleic acid binding;GO:0003678//DNA helicase activity;GO:0032550//purine ribonucleoside binding;GO:0042623//ATPase activity, coupled;GO:0043169//cation binding;GO:0051536//iron-sulfur cluster bindingGO:0000302//response to reactive oxygen species;GO:0000725//recombinational repair;GO:0006355//regulation of transcription, DNA-templated;GO:0006464//cellular protein modification process;GO:0008380//RNA splicing;GO:0009408//response to heat;GO:0009642//response to light intensity;GO:0032392//DNA geometric change
HY5-IP_peak_15PGAv.1.6.scaffold10306878268994213688318.004.524495.987132.91126Downstream (2-3kb)PGAv.1.6.scaffold1030543236297186494-CA.PGAv.1.6.scaffold1030.1TC.CA.PGAv.1.6.scaffold1030.1-5860zgc:73324PREDICTED: coenzyme Q-binding protein COQ10 homolog, mitochondrial [Capsicum annuum]----GO:0043231//intracellular membrane-bounded organelleGO:0043167//ion bindingGO:0006089//lactate metabolic process;GO:0006812//cation transport;GO:0009247//glycolipid biosynthetic process;GO:0009267//cellular response to starvation;GO:0009414//response to water deprivation
HY5-IP_peak_16PGAv.1.6.scaffold10301288531290231711289189.005.262267.369973.91899Downstream (<1kb)PGAv.1.6.scaffold10301293081296703631-CA.PGAv.1.6.scaffold1030.6TC.CA.PGAv.1.6.scaffold1030.6752--PREDICTED: glutamate receptor 2.5-like [Capsicum annuum]-------
HY5-IP_peak_19PGAv.1.6.scaffold10303641323643812503643317.004.170805.254952.34408Downstream (<1kb)PGAv.1.6.scaffold103036495736620312472-CA.PGAv.1.6.scaffold1030.16TC.CA.PGAv.1.6.scaffold1030.161872HSFB4Heat stress transcription factor B-4 [Capsicum annuum]------GO:0006950//response to stress;GO:0051301//cell division
HY5-IP_peak_20PGAv.1.6.scaffold10303648283650081813649178.004.904186.588943.31784Downstream (<1kb)PGAv.1.6.scaffold103036495736620312472-CA.PGAv.1.6.scaffold1030.16TC.CA.PGAv.1.6.scaffold1030.161286HSFB4Heat stress transcription factor B-4 [Capsicum annuum]------GO:0006950//response to stress;GO:0051301//cell division
HY5-IP_peak_21PGAv.1.6.scaffold103048559448575916648569910.005.132577.415263.95920Promoter (1-2kb)PGAv.1.6.scaffold103048139748451531198-CA.PGAv.1.6.scaffold1030.23TC.CA.PGAv.1.6.scaffold1030.23-1184At1g01540serine/threonine-protein kinase [Capsicum annuum]-------

6.2 Peak在基因功能元件上的分布

利用参考基因组gtf数据库将与peak最相邻的基因(peak中心与基因的TTS距离最近)进行注释,统计peak在基因各功能区域的分布情况,按照promoter(转录起始位点上游2K序列范围)、5'UTR、3'UTR、Exon、Intron、Downstream(转录终止位点下游2K序列范围)、Intergenic(基因间区)的优先级顺序,确定peak与各个功能区域的对应关系。

Tab 6-2-1 各样本peak在基因功能元件上的分布统计表
samplepeakCountpromoter5'UTR3'UTR1st_exonother_exon1st_intronohter_introndownstreamdistal_intergenic
HY5-IP235611380-5.86%0-0.00%0-0.00%94-0.40%39-0.17%449-1.91%585-2.48%597-2.53%20417-86.66%

Fig 6-2-1 HY5-IP

Fig 6-2-2 HY5-IP


Fig 6-2-3 各样本peak在基因功能元件上的分布比例图 Fig 6-2-4 各样本peak相对TSS距离分布比例图

6.3 Peak在染色体上的分布
Fig 6-3-1 HY5-IP

6.4 peak相关基因 GO富集分析

       Gene Ontology(简称GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表(controlled vocabulary)来全面描述生物体中基因和基因产物的属性。GO总共有三个ontology(本体),分别描述基因的分子功能(molecular function)、细胞组分(cellular component)、参与的生物过程(biological process)。GO的基本单位是term(词条、节点),每个term都对应一个属性。 GO功能分析一方面给出基因的GO功能分类注释;另一方面给出基因的GO功能显著性富集分析。 首先,我们将基因向GO数据库(http://www.geneontology.org/)的各term映射,并计算每个term的基因数,从而得到具有某个GO功能的基因列表及基因数目统计。然后应用超几何检验,找出与整个基因组背景相比,在基因中显著富集的GO条目。

基因集 细胞组分 分子功能 生物学过程 GO 分类表
HY5-IP HY5-IP.C.html HY5-IP.F.html HY5-IP.P.html HY5-IP.Level2.xls

GO富集圈图:(第一圈:富集前20的GOterm,圈外为基因数目的坐标尺。不同的颜色代表不同的Ontology; 第二圈:背景基因中该GOterm的数目以及Q值。基因越多条形越长,Q值越小颜色越红; 第三圈:该GOterm差异基因数量 第四圈:各GOterm的RichFactor值(该GOterm中差异数量除以所有数量),背景网格线,每一格代表0.1)

  • HY5-IP 富集圈图

Fig 6-4-1 GO 富集圈图


GO 富集分类柱状图:(横坐标为二级GOterm,纵坐标为该term里的基因数量,不同颜色表色不同类型GOterm)

  • HY5-IP

Fig 6-4-2 GO富集分类柱状图


GO富集气泡图:(利用Q值最小的前20个GOterm来作图,纵坐标为GOterm,横坐标为富集因子(该GOterm中差异数量除以所有数量),大小表示数量多少,颜色越红Q值越小)");

  • HY5-IP.C 气泡图
  • HY5-IP.F 气泡图
  • HY5-IP.P 气泡图

Fig 6-4-3 GO富集气泡图


GO富集条形图:(利用Q值最小的前20个GOterm来作图,纵坐标为GOterm,横坐标为该GOterm数目占所有差异数目的百分比,颜色越深Q值越小,柱子上的数值为该GOterm数量及Q值");

  • HY5-IP.C 富集柱形图
  • HY5-IP.F 富集柱形图
  • HY5-IP.P 富集柱形图

Fig 6-4-4 GO富集条形图


6.5 peak相关基因 KO富集分析

       在生物体内,不同基因相互协调行使其生物学,基于Pathway的分析有助于更进一步了解基因的生物学功能。KEGG是有关Pathway的主要公共数据库。 Pathway显著性富集分析以KEGG Pathway为单位,应用超几何检验,找出与整个基因组背景相比,在基因中显著性富集的Pathway。通过Pathway显著性富集能确定基因参与的最主要生化代谢途径和信号转导途径。

基因集 Pathway 富集结果 Pathway 注释表
HY5-IP HY5-IP.htm HY5-IP.path.xls

KO富集圈图:(第一圈:富集前20的pathway,圈外为基因数目的坐标尺。不同的颜色代表不同的A class; 第二圈:背景基因中该pathway的数目以及Q值。基因越多条形越长,Q值越小颜色越红; 第三圈:该pathway差异基因数量 第四圈:各pathway的RichFactor值(该pathway中差异数量除以所有数量),背景网格线,每一格代表0.1)

  • HY5-IP 富集圈图

Fig 6-5-1 KO 富集圈图


KO富集气泡图:(利用Q值最小的前20个pathway来作图,纵坐标为pathway,横坐标为富集因子(该pathway中差异数量除以所有数量),大小表示数量多少,颜色越红Q值越小)");

  • HY5-IP

Fig 6-5-2 KO富集气泡图


KO富集条形图:(利用Q值最小的前20个pathway来作图,纵坐标为pathway,横坐标为该pathway数目占所有差异数目的百分比,颜色越深Q值越小,柱子上的数值为该pathway数量及Q值");

  • HY5-IP 富集柱形图

Fig 6-5-3 KO富集条形图


6.6 Peak以及周边基因结构的可视化

Integrative Genomics Viewer(IGV)是一种高性能的可视化工具,用于基因组中各类数据的整合可视化,可选择全基因组、染色体甚至是单个碱基水平进行浏览,并且能显示其他注释信息。我们提供reads在每条染色体比对结果的bigwig文件,可以使用IGV将结果进行可视化。

Fig 6-6-1 基因结构可视化

广州基迪奥生物科技有限公司




7 Motif分析

转录因子(Transcription Factors, TFs)是指能够以序列特异性方式结合 DNA 并且调节转录的蛋白质,TFs 通过识别特定的 DNA 序列来控制染色质和转录,以形成指导基因组表达的复杂系统。利用 MEME Suite(http://meme-suite.org/)进行 Motif 分析。

7.1 motif检测

我们利用 MEME Suite[5] 中的 MEME-chip 检测 peak 序列中显著 motif 序列。MEME-chip 整合了 MEME(检测8-15bp)与 Dreme(检测3-8bp)功能,可同时检测长 motif 和短 motif 。

  • HY5-IP motifs









Fig 7-1-1 meme 显著motif序列图


不同颜色代表不同碱基类型,字母的高度代表这个碱基的保守性(字母越高,其在整个位点的频率越高,越保守)。

  • HY5-IP motifs


Fig 7-1-2 dreme 显著motif序列图


不同颜色代表不同碱基类型,字母的高度代表这个碱基的保守性(字母越高,其在整个位点的频率越高,越保守)。

7.2 各motif到peak顶点(submit)的距离统计

DAP-seq通常会检测到多个显著的motif,但理论上其中只有一个为转录因子的结合位点序列。转录因子结合位点序列理论上应该与peak的顶点重叠,即motif与peak顶点的距离应该趋近于0。通过统计各个motif与peak的顶点的距离,将有利于帮助我们判断哪个motif最有可能为转录因子的结合位点。

我们利用 MEME Suite[5] 中的 fimo 确定 MEME-chip 结果中显著性 Top5 的 motif 在各序列中的位置。

Tab 7-2-1 样本HY5-IP motif位置统计表(前10行)
motif_idmotif_alt_idsequence_namestartstopstrandscorep-valueq-valuematched_sequencedistToSummitpeak_namechrstartendlengthabs_summitpileupfold_enrichment-log10(pvalue)-log10(qvalue)annotationgeneChrgeneStartgeneEndgeneLengthexonNumbergeneStrandgeneIdtranscriptIddistToTSS
KRYSACGTCATCAMEME-1chr0120912702091282-23.06851.93e-090.0183GGCCACGTCATCA2HY5-IP_peak_944chr0120911282091414287209126841.0018.7176547.6945841.88219Distal Intergenicchr01209845320993649121+CA.PGAv.1.6.scaffold532.114TC.CA.PGAv.1.6.scaffold532.114-7185
KRYSACGTCATCAMEME-1chr024529423545294247-23.06851.93e-090.0183GGCCACGTCATCA0HY5-IP_peak_3796chr0245294067452943963304529423778.0028.2479397.6191591.11274Distal Intergenicchr024549576145507131113713+CA.PGAv.1.6.scaffold304.6TC.CA.PGAv.1.6.scaffold304.6-201524
KRYSACGTCATCAMEME-1chr02146612397146612409+21.75346.58e-090.0183GGCCACGTCAGCA8HY5-IP_peak_4529chr0214661232214661249817714661238911.005.645988.514334.78954Exon (TC.CA.PGAv.1.6.scaffold569.11/CA.PGAv.1.6.scaffold569.11, exon 1 of 1)chr021466120141466124874741+CA.PGAv.1.6.scaffold569.11TC.CA.PGAv.1.6.scaffold569.11375
KRYSACGTCATCAMEME-1chr02161479952161479964+21.36991.57e-080.0183GACCACGTCATCA4HY5-IP_peak_4687chr0216147982116148004022016147994820.008.6159816.9946212.07359Promoter (<=1kb)chr0216147764816147959919523-CA.PGAv.1.6.scaffold836.42TC.CA.PGAv.1.6.scaffold836.42-349
KRYSACGTCATCAMEME-1chr01247583432247583444+21.36991.57e-080.0183GACCACGTCATCA27HY5-IP_peak_2912chr0124758334324758353118924758340515.005.721109.981255.88949Distal Intergenicchr0124757664324757874321017-CA.PGAv.1.6.scaffold1249.15TC.CA.PGAv.1.6.scaffold1249.15-4662
KRYSACGTCATCAMEME-1PGAv.1.6.scaffold19219299593007-21.10962.16e-080.0183TGCCACGTCATCA8HY5-IP_peak_522PGAv.1.6.scaffold192192872931232529298723.0011.5494523.4587118.24484Promoter (<=1kb)PGAv.1.6.scaffold1921894079284634407-CA.PGAv.1.6.scaffold1921.7TC.CA.PGAv.1.6.scaffold1921.7-141
KRYSACGTCATCAMEME-1chr1227914262791438-21.10962.16e-080.0183TGCCACGTCATCA0HY5-IP_peak_21616chr1227913072791583277279142936.0015.1805337.9166232.30148Exon (TC.CA.PGAv.1.6.scaffold1186.45/CA.PGAv.1.6.scaffold1186.45, exon 1 of 6)chr122791112279574446336+CA.PGAv.1.6.scaffold1186.45TC.CA.PGAv.1.6.scaffold1186.45317
KRYSACGTCATCAMEME-1chr1243319954332007-21.10962.16e-080.0183TGCCACGTCATCA0HY5-IP_peak_21630chr1243318844332127244433199529.0014.4369631.8979226.42871Distal Intergenicchr124315563432199764359+CA.PGAv.1.6.scaffold222.57TC.CA.PGAv.1.6.scaffold222.5716432
KRYSACGTCATCAMEME-1chr111192545711925469-21.10962.16e-080.0183TGCCACGTCATCA0HY5-IP_peak_19584chr1111925346119255852401192546023.0011.2919523.0300617.83872Intron (TC.CA.PGAv.1.6.scaffold680.30/CA.PGAv.1.6.scaffold680.30, intron 2 of 2)chr11119245441192565211093+CA.PGAv.1.6.scaffold680.30TC.CA.PGAv.1.6.scaffold680.30916
KRYSACGTCATCAMEME-1chr111604249616042508-21.10962.16e-080.0183TGCCACGTCATCA0HY5-IP_peak_19616chr1116042382160426182371604249816.007.5761913.449128.84629Exon (TC.CA.PGAv.1.6.scaffold707.17/CA.PGAv.1.6.scaffold707.17, exon 1 of 18)chr1116042209160547181251018+CA.PGAv.1.6.scaffold707.17TC.CA.PGAv.1.6.scaffold707.17289

  • HY5-IP motifs





Fig 7-2-1 motif与peak距离的频率直方图


7.3 motif注释

我们利用 MEME-chip (地址:http://meme-suite.org/) 软件中的 Tomtom 模块将得到的 motif 序列与已知 motif 数据库进行比对,利用已知 motif 来注释检测到的 motif 。

广州基迪奥生物科技有限公司




8 目录结构

upload
├── 1.data_access                                    过滤统计目录
│   ├── all.read.stat.xls                               过滤信息统计表
│   ├── all.data.stat.xls                               过滤前后碱基信息统计表
│   ├── all.count.{png,pdf}                             样本过滤分析频数图
│   ├── all.fill.{png,pdf}                              样本过滤分析比例图
│   ├── *.old.png                                       各样品过滤前各项统计图
│   └── *.new.png                                       各样品过滤后各项统计图
├── 2.alignment                                      比对统计结果
│   ├── sample.alignstat.xls                            各样品比对参考基因组统计结果
│   ├── *.cov.{png,pdf}                                 测序深度累积分布统计图
│   ├── *.tss_tes.{png,pdf}                             测序深度分布图
│   ├── *.saturation.{png,pdf}                          测序饱和度分布图
│   └── *.chr.{png,svg}                                 reads在染色体上的分布图
├── 3.peak_analysis                                  Peak分析结果
│   ├── sample.peakstat.xls                             各样本 peak 数目统计表
│   ├── *.peak.len.{png,pdf}                            Peak长度分布
│   ├── *.peak.dep.{png,pdf}                            Peak深度分布
│   ├── *.peak.fe.{png,pdf}                             Peak富集倍数分布
│   └── *.peak.pv.{png,pdf}                             Peak置信程度分布
├── 4.peak_annotation                                Peak注释
│   ├── all.annostat.xls                                peak在基因功能元件上的分布统计表
│   ├── all.peakanno.bar.{png,pdf}                      peak在基因功能元件上的分布饼图
│   ├── all.peakanno.distToTSS.{png,pdf}                peak相对TSS距离分布比例图
│   ├── *.final.anno.xls                                peak相关基因注释表
│   ├── *.peakanno.bar.{png,pdf}                        peak在基因功能元件上的分布比例图
│   ├── *.peakanno.pie.{png,pdf}                        peak在基因功能元件上的分布饼状图
│   ├── *.peakanno.cov.{png.pdf}                        peak在染色体上的分布图
│   ├── *.distToTss.{png,pdf}                           peak_summit相对基因位置分布图
│   └── enrich                                          富集结果目录
├── 5.motif                                          Motif分析结果
│   ├── meme-chip                                       样本meme-chip结果目录
│   │   └── meme-chip.html                                 样本meme-chip网页报告
│   └── fimo                                            样本fimo结果目录
│       ├── fimo.html                                      样本fimo网页报告
│       ├── *.motif.dist.png                               样本motif距离peakSummit分布图
│       └── *.motif_anno.xls                               样本motif基因注释表
├── src                                              结果报告内容                                    
│   ├── content.html                                    结果报告内容
│   ├── css                                             结题报告css脚本
│   ├── js                                              结题报告js脚本
│   ├── doc                                             结题报告说明文档
│   └── image                                           结题报告图片
└── index.html                                       网页版结题报告

广州基迪奥生物科技有限公司




9 参考文献

广州基迪奥生物科技有限公司




10 附录

10.1 分析方法英文文档

分析方法文档(英文):DAP-seq_method.pdf

10.2 结果文件查看

*.xls,*.txt :结果数据表格文件,文件以制表符(Tab)分隔。unix/Linux/Mac用户使用 less 或 more 命令查看;windows用户使用高级文本编辑器Notepad++ 等查看,也可以用Microsoft Excel打开。

*.png:结果图像文件,位图,无损压缩。

*.pdf:结果图像文件,矢量图,可以放大和缩小而不失真,方便用户查看和编辑处理,可使用Adobe Illustrator进行图片编辑,用于文章发表等。

10.3 文章引用与致谢

如果您的研究课题使用了基迪奥的测序和分析服务,我们期望您在论文发表时,在Method部分或Acknowledgements部分引用或提及基迪奥公司。以下语句可供参考:

广州基迪奥生物科技有限公司




帮助文档