基迪奥生物结题报告

1 项目概述


项目编号	GDE21030165-1_std_1
项目名称	Capsicum annuum ------ 2 DAP-seq
参考基因组	Annuum.v1.6
样品名称	HY5-IP ¦ HY5-input

2 项目介绍

DNA亲和纯化测序（DAP-seq，DNA Affinity Purification sequencing），通过体外构建表达转录因子（TF，Transcription Factor）蛋白，与目标基因组片段结合，由此可以把目的蛋白所结合的基因组DNA片段富集下来。通过与高通量测序技术的结合，对DAP后的DNA产物进行测序分析，从全基因组范围内寻找目的蛋白的DNA结合位点，以高效率的测序手段得到高通量的数据结果。

2.1 建库流程

得到 DNA 样品后，首先对样品进行质量检测。样品质量检测合格后，进行文库构建，具体步骤如下：

1. DNA超声打断至约200bp大小，末端修复，3’ 端加A碱基，连接测序接头。

2. 在DAP实验完成后，进行DNA片段的PCR扩增，产物纯化。

3. 文库构建完成后，对文库质量进行检测，合格的文库用于上机测序。

Fig 2-1-1 DAP-seq实验建库流程图

2.2 信息分析流程

对下机数据进行数据过滤，去掉低质量数据。将过滤后数据与参考基因组进行比对，确认比对质量合格后，提取比对上唯一位置的序列，进行信息分析处理，得到标准信息分析结果和个性化分析结果。具体信息分析流程见图所示。

Fig 2-2-1 DAP-seq分析流程图

广州基迪奥生物科技有限公司

3 数据分析与质控

3.1 过滤信息统计

Tab 3-1-1 Reads 过滤信息统计表
Sample	Clean_Reads_Num	HQ_Clean_Reads_Num(%)	Read_length	adapter(%)	low_quality(%)	polyA(%)	N(%)
HY5-IP	64490734	64393612(99.85%)	150 + 150	25840(0.04%)	141552(0.11%)	0(0.0%)	1012(0.0%)
HY5-input	74974530	74810720(99.78%)	150 + 150	41046(0.05%)	244272(0.16%)	0(0.0%)	1256(0.0%)


Fig 3-1-1 样本过滤分析频数图		Fig 3-1-2 样本过滤分析比例图

3.2 碱基组成与质量分析

Tab 3-2-1 过滤前后碱基信息统计表
Sample	Clean_Data(bp)	Q20(%)	Q30(%)	N(%)	GC(%)	HQ_Clean_Data(bp)	HQ_Q20(%)	HQ_Q30(%)	HQ_N(%)	HQ_GC(%)
HY5-IP	9673610100	9445928400(97.65%)	9021975232(93.26%)	230978(0.0%)	3161061017(32.67%)	9128587713	8933418298(97.86%)	8550390486(93.67%)	212470(0.0%)	2878456604(31.53%)
HY5-input	11246179500	11003136115(97.84%)	10546340194(93.78%)	283562(0.0%)	4108370473(36.53%)	10614160791	10406559113(98.04%)	9993300953(94.15%)	260942(0.0%)	3779391554(35.61%)

HY5-IP
HY5-input

Fig 3-2-1 过滤前后碱基分布

广州基迪奥生物科技有限公司

4 比对分析

4.1 比对基因组统计

利用比对软件 Bowtie2^[1] 将数据比对到参考基因组，过滤掉低比对质量值的 reads ，最终将比对到基因组上唯一位置的 reads (唯一比对 reads )用于后续的信息分析。

Tab 4-1-1 各样品比对参考基因组统计结果
Sample_ID	Total_Reads	UnMapped_Reads	Mapped_Reads	Multi_Mapped_Reads	Unique_Mapped_Reads	Duplicate_Reads
HY5-IP	64393612	2166647-3.36%	62226965-96.64%	32784779-50.91%	29442186-45.72%	14552266-23.39%
HY5-input	74810720	1998186-2.67%	72812534-97.33%	37251828-49.79%	35560706-47.53%	9104476-12.50%

4.2 基因组测序深度累积分布

以比对后得到的唯一比对序列为分析对象，分析其在参考基因组上的覆盖分布，统计基因组位点的深度信息，得到基因组上测序深度统计结果。

HY5-IP
HY5-input

Fig 4-2-1 测序深度累积分布统计图

4.3 基因组测序深度分布

利用 deepTools^[2] 软件对转录起始位点（TSS）到转录终止位点（TES）区间，及基因上下游 2k 区间的所有 reads 进行统计，设置大小为 50bp 的窗口，计算每个窗口内的平均 reads 深度，并绘制出 reads 相对于基因特定位置的分布折线图。

HY5-IP
HY5-input

Fig 4-3-1 测序深度分布图

4.4 测序饱和度分析

测序饱和度分析是用来衡量一个样品的测序量是否达到饱和的标准。随着测序量（reads数量）的增多，检测到的基因数也随之上升。当测序量达到某个值时，其检测到的基因数增长速度趋于平缓，说明检测到的基因数趋于饱和，如下图所示：

HY5-IP
HY5-input

Fig 4-4-1 测序饱和度分布

4.5 Reads在染色体上的分布

将唯一比对、去重复后的 reads 比对到基因组上各个染色体（分正负链）的密度进行统计。

HY5-IP
HY5-input

Fig 4-5-1 reads在染色体上的分布图

广州基迪奥生物科技有限公司

5 Peak分析

测序分析 DAP 后的 DNA 产物，从全基因组范围内寻找目的蛋白与 DNA 的结合位点，利用 MACS2^[3] 分析软件在全基因组范围进行 peak（DAP Sequencing富集区域）扫描（peak calling），阈值为 q-value<0.05 ，并对 peak 在基因组上的位置信息， peak 区域序列信息等进行分析，筛选出 peak 相关基因。我们将对各处理组分别检测peak。如果一个处理组有多个生物学重复，MACS软件将合并多个生物学重复的数据，输出统一的peak数据。

5.1 PeakCalling

Tab 5-1-1 各样本 peak 数目统计表
SampleId	PeakNumber	TotalLength	AverageLength	TotalPileup	AveragePileup	GenomeRatio(%)	FRiP(%)
HY5-IP	23561	5795060	245	230891	9	0.19%	3.09%

Tab 5-1-2 样本 HY5-IP peaks结果信息统计表（前10行）
chr	start	end	length	abs_summit	pileup	-log10(pvalue)	fold_enrichment	-log10(qvalue)	name
PGAv.1.6.scaffold1006	154497	154662	166	154545	9.00	7.16577	5.13423	3.75201	HY5-IP_peak_1
PGAv.1.6.scaffold1006	276099	276263	165	276200	6.00	5.25123	4.23844	2.34408	HY5-IP_peak_2
PGAv.1.6.scaffold1006	279004	279178	175	279101	9.00	7.19068	5.14989	3.77084	HY5-IP_peak_3
PGAv.1.6.scaffold1006	331249	331552	304	331472	9.00	6.28941	4.57741	3.12580	HY5-IP_peak_4
PGAv.1.6.scaffold1006	475564	476139	576	475712	20.00	19.46976	10.10588	14.41852	HY5-IP_peak_5
PGAv.1.6.scaffold1006	516445	516800	356	516716	7.00	4.75810	3.84986	2.02914	HY5-IP_peak_6
PGAv.1.6.scaffold1006	524486	524677	192	524557	8.00	7.48812	5.44942	3.95920	HY5-IP_peak_7
PGAv.1.6.scaffold1006	632171	632534	364	632213	11.00	7.36345	4.92342	3.91330	HY5-IP_peak_8
PGAv.1.6.scaffold1006	637731	637897	167	637755	6.00	4.72524	3.91546	2.02914	HY5-IP_peak_9
PGAv.1.6.scaffold1023	205415	205744	330	205473	7.00	4.96792	3.98616	2.17303	HY5-IP_peak_10

HY5-IP peaks结果信息统计表: /3.peak_analysis/HY5-IP_peaks.xls

5.2 Peak长度分布

Fig 5-2-1 HY5-IP

5.3 Peak深度分布

Fig 5-3-1 HY5-IP

5.4 Peak富集倍数分布

Fig 5-4-1 HY5-IP

5.5 Peak置信程度分布

Fig 5-5-1 HY5-IP

广州基迪奥生物科技有限公司

6 Peak注释

利用 ChIPseeker^[4] R包，对 peak 相关基因进行注释。

6.1 Peak相关基因分析

根据peak在基因组上的区域信息及基因的注释信息，得到关于peak相关基因，从一定程度上表示了目的蛋白或特定组蛋白修饰可能调控的靶基因区域。

Tab 6-1-1 样本HY5-IP peak相关基因注释表（前10行）
peak_name	chr	start	end	length	abs_summit	pileup	fold_enrichment	-log10(pvalue)	-log10(qvalue)	annotation	geneChr	geneStart	geneEnd	geneLength	exonNumber	geneStrand	geneId	transcriptId	distToTSS	Symbol	Description	KEGG_A_class	KEGG_B_class	Pathway	K_ID	GO_Component	GO_Function	GO_Process
HY5-IP_peak_3	PGAv.1.6.scaffold1006	279004	279178	175	279101	9.00	5.14989	7.19068	3.77084	Downstream (<1kb)	PGAv.1.6.scaffold1006	279317	284715	5399	7	-	CA.PGAv.1.6.scaffold1006.4	TC.CA.PGAv.1.6.scaffold1006.4	5614	At2g44560	Endoglucanase 15 [Capsicum annuum]	Metabolism;Metabolism	Global and overview maps;Carbohydrate metabolism	ko01100//Metabolic pathways;ko00500//Starch and sucrose metabolism	K01179;K01179	GO:0043231//intracellular membrane-bounded organelle	GO:0004553//hydrolase activity, hydrolyzing O-glycosyl compounds	GO:0005976//polysaccharide metabolic process;GO:0009987//cellular process
HY5-IP_peak_6	PGAv.1.6.scaffold1006	516445	516800	356	516716	7.00	3.84986	4.75810	2.02914	Promoter (<=1kb)	PGAv.1.6.scaffold1006	512989	516430	3442	5	-	CA.PGAv.1.6.scaffold1006.8	TC.CA.PGAv.1.6.scaffold1006.8	-286	--	PREDICTED: universal stress protein A homolog 1-like [Capsicum annuum]	-	-	-	-	GO:0016020//membrane;GO:0043231//intracellular membrane-bounded organelle	-	GO:0010033//response to organic substance
HY5-IP_peak_7	PGAv.1.6.scaffold1006	524486	524677	192	524557	8.00	5.44942	7.48812	3.95920	Intron (TC.CA.PGAv.1.6.scaffold1006.9/CA.PGAv.1.6.scaffold1006.9, intron 1 of 2)	PGAv.1.6.scaffold1006	522388	524750	2363	3	-	CA.PGAv.1.6.scaffold1006.9	TC.CA.PGAv.1.6.scaffold1006.9	193	APIC	PREDICTED: glutathione S-transferase [Capsicum annuum]	Metabolism;Metabolism	Global and overview maps;Metabolism of other amino acids	ko01100//Metabolic pathways;ko00480//Glutathione metabolism	K00799;K00799	GO:0005576//extracellular region;GO:0005911//cell-cell junction;GO:0009526//plastid envelope;GO:0009532//plastid stroma;GO:0016020//membrane;GO:0030312//external encapsulating structure	GO:0016765//transferase activity, transferring alkyl or aryl (other than methyl) groups;GO:0043168//anion binding;GO:0046914//transition metal ion binding;GO:0097159//organic cyclic compound binding	GO:0006970//response to osmotic stress;GO:0009404//toxin metabolic process;GO:0009617//response to bacterium;GO:0009755//hormone-mediated signaling pathway;GO:0010038//response to metal ion;GO:0050832//defense response to fungus
HY5-IP_peak_8	PGAv.1.6.scaffold1006	632171	632534	364	632213	11.00	4.92342	7.36345	3.91330	Promoter (1-2kb)	PGAv.1.6.scaffold1006	633694	643278	9585	12	+	CA.PGAv.1.6.scaffold1006.14	TC.CA.PGAv.1.6.scaffold1006.14	-1481	XPD	TFIIH basal transcription factor complex helicase XPD subunit [Capsicum annuum]	Genetic Information Processing;Genetic Information Processing	Replication and repair;Transcription	ko03420//Nucleotide excision repair;ko03022//Basal transcription factors	K10844;K10844	GO:0043231//intracellular membrane-bounded organelle	GO:0003676//nucleic acid binding;GO:0003678//DNA helicase activity;GO:0032550//purine ribonucleoside binding;GO:0042623//ATPase activity, coupled;GO:0043169//cation binding;GO:0051536//iron-sulfur cluster binding	GO:0000302//response to reactive oxygen species;GO:0000725//recombinational repair;GO:0006355//regulation of transcription, DNA-templated;GO:0006464//cellular protein modification process;GO:0008380//RNA splicing;GO:0009408//response to heat;GO:0009642//response to light intensity;GO:0032392//DNA geometric change
HY5-IP_peak_9	PGAv.1.6.scaffold1006	637731	637897	167	637755	6.00	3.91546	4.72524	2.02914	Intron (TC.CA.PGAv.1.6.scaffold1006.14/CA.PGAv.1.6.scaffold1006.14, intron 2 of 11)	PGAv.1.6.scaffold1006	633694	643278	9585	12	+	CA.PGAv.1.6.scaffold1006.14	TC.CA.PGAv.1.6.scaffold1006.14	4061	XPD	TFIIH basal transcription factor complex helicase XPD subunit [Capsicum annuum]	Genetic Information Processing;Genetic Information Processing	Replication and repair;Transcription	ko03420//Nucleotide excision repair;ko03022//Basal transcription factors	K10844;K10844	GO:0043231//intracellular membrane-bounded organelle	GO:0003676//nucleic acid binding;GO:0003678//DNA helicase activity;GO:0032550//purine ribonucleoside binding;GO:0042623//ATPase activity, coupled;GO:0043169//cation binding;GO:0051536//iron-sulfur cluster binding	GO:0000302//response to reactive oxygen species;GO:0000725//recombinational repair;GO:0006355//regulation of transcription, DNA-templated;GO:0006464//cellular protein modification process;GO:0008380//RNA splicing;GO:0009408//response to heat;GO:0009642//response to light intensity;GO:0032392//DNA geometric change
HY5-IP_peak_15	PGAv.1.6.scaffold1030	68782	68994	213	68831	8.00	4.52449	5.98713	2.91126	Downstream (2-3kb)	PGAv.1.6.scaffold1030	54323	62971	8649	4	-	CA.PGAv.1.6.scaffold1030.1	TC.CA.PGAv.1.6.scaffold1030.1	-5860	zgc:73324	PREDICTED: coenzyme Q-binding protein COQ10 homolog, mitochondrial [Capsicum annuum]	-	-	-	-	GO:0043231//intracellular membrane-bounded organelle	GO:0043167//ion binding	GO:0006089//lactate metabolic process;GO:0006812//cation transport;GO:0009247//glycolipid biosynthetic process;GO:0009267//cellular response to starvation;GO:0009414//response to water deprivation
HY5-IP_peak_16	PGAv.1.6.scaffold1030	128853	129023	171	128918	9.00	5.26226	7.36997	3.91899	Downstream (<1kb)	PGAv.1.6.scaffold1030	129308	129670	363	1	-	CA.PGAv.1.6.scaffold1030.6	TC.CA.PGAv.1.6.scaffold1030.6	752	--	PREDICTED: glutamate receptor 2.5-like [Capsicum annuum]	-	-	-	-	-	-	-
HY5-IP_peak_19	PGAv.1.6.scaffold1030	364132	364381	250	364331	7.00	4.17080	5.25495	2.34408	Downstream (<1kb)	PGAv.1.6.scaffold1030	364957	366203	1247	2	-	CA.PGAv.1.6.scaffold1030.16	TC.CA.PGAv.1.6.scaffold1030.16	1872	HSFB4	Heat stress transcription factor B-4 [Capsicum annuum]	-	-	-	-	-	-	GO:0006950//response to stress;GO:0051301//cell division
HY5-IP_peak_20	PGAv.1.6.scaffold1030	364828	365008	181	364917	8.00	4.90418	6.58894	3.31784	Downstream (<1kb)	PGAv.1.6.scaffold1030	364957	366203	1247	2	-	CA.PGAv.1.6.scaffold1030.16	TC.CA.PGAv.1.6.scaffold1030.16	1286	HSFB4	Heat stress transcription factor B-4 [Capsicum annuum]	-	-	-	-	-	-	GO:0006950//response to stress;GO:0051301//cell division
HY5-IP_peak_21	PGAv.1.6.scaffold1030	485594	485759	166	485699	10.00	5.13257	7.41526	3.95920	Promoter (1-2kb)	PGAv.1.6.scaffold1030	481397	484515	3119	8	-	CA.PGAv.1.6.scaffold1030.23	TC.CA.PGAv.1.6.scaffold1030.23	-1184	At1g01540	serine/threonine-protein kinase [Capsicum annuum]	-	-	-	-	-	-	-

HY5-IP peak相关基因注释表: /4.peak_annotation/HY5-IP.final.anno.xls

6.2 Peak在基因功能元件上的分布

利用参考基因组gtf数据库将与peak最相邻的基因（peak中心与基因的TTS距离最近）进行注释，统计peak在基因各功能区域的分布情况，按照promoter（转录起始位点上游2K序列范围）、5'UTR、3'UTR、Exon、Intron、Downstream（转录终止位点下游2K序列范围）、Intergenic（基因间区）的优先级顺序，确定peak与各个功能区域的对应关系。

Tab 6-2-1 各样本peak在基因功能元件上的分布统计表
sample	peakCount	promoter	5'UTR	3'UTR	1st_exon	other_exon	1st_intron	ohter_intron	downstream	distal_intergenic
HY5-IP	23561	1380-5.86%	0-0.00%	0-0.00%	94-0.40%	39-0.17%	449-1.91%	585-2.48%	597-2.53%	20417-86.66%

Fig 6-2-1 HY5-IP

Fig 6-2-2 HY5-IP


Fig 6-2-3 各样本peak在基因功能元件上的分布比例图		Fig 6-2-4 各样本peak相对TSS距离分布比例图

6.3 Peak在染色体上的分布

Fig 6-3-1 HY5-IP

6.4 peak相关基因 GO富集分析

Gene Ontology（简称GO）是一个国际标准化的基因功能分类体系，提供了一套动态更新的标准词汇表（controlled vocabulary）来全面描述生物体中基因和基因产物的属性。GO总共有三个ontology（本体），分别描述基因的分子功能（molecular function）、细胞组分（cellular component）、参与的生物过程（biological process）。GO的基本单位是term（词条、节点），每个term都对应一个属性。 GO功能分析一方面给出基因的GO功能分类注释；另一方面给出基因的GO功能显著性富集分析。首先，我们将基因向GO数据库(http://www.geneontology.org/)的各term映射，并计算每个term的基因数，从而得到具有某个GO功能的基因列表及基因数目统计。然后应用超几何检验，找出与整个基因组背景相比，在基因中显著富集的GO条目。

基因集	细胞组分	分子功能	生物学过程	GO 分类表
HY5-IP	HY5-IP.C.html	HY5-IP.F.html	HY5-IP.P.html	HY5-IP.Level2.xls

GO富集圈图：(第一圈：富集前20的GOterm,圈外为基因数目的坐标尺。不同的颜色代表不同的Ontology; 第二圈：背景基因中该GOterm的数目以及Q值。基因越多条形越长，Q值越小颜色越红；第三圈：该GOterm差异基因数量第四圈：各GOterm的RichFactor值(该GOterm中差异数量除以所有数量),背景网格线，每一格代表0.1)

HY5-IP 富集圈图

Fig 6-4-1 GO 富集圈图

GO 富集分类柱状图：（横坐标为二级GOterm，纵坐标为该term里的基因数量,不同颜色表色不同类型GOterm）

HY5-IP

Fig 6-4-2 GO富集分类柱状图

GO富集气泡图：(利用Q值最小的前20个GOterm来作图，纵坐标为GOterm，横坐标为富集因子(该GOterm中差异数量除以所有数量)，大小表示数量多少，颜色越红Q值越小)");

HY5-IP.C 气泡图
HY5-IP.F 气泡图
HY5-IP.P 气泡图

Fig 6-4-3 GO富集气泡图

GO富集条形图：(利用Q值最小的前20个GOterm来作图，纵坐标为GOterm，横坐标为该GOterm数目占所有差异数目的百分比，颜色越深Q值越小，柱子上的数值为该GOterm数量及Q值");

HY5-IP.C 富集柱形图
HY5-IP.F 富集柱形图
HY5-IP.P 富集柱形图

Fig 6-4-4 GO富集条形图

6.5 peak相关基因 KO富集分析

在生物体内，不同基因相互协调行使其生物学，基于Pathway的分析有助于更进一步了解基因的生物学功能。KEGG是有关Pathway的主要公共数据库。 Pathway显著性富集分析以KEGG Pathway为单位，应用超几何检验，找出与整个基因组背景相比，在基因中显著性富集的Pathway。通过Pathway显著性富集能确定基因参与的最主要生化代谢途径和信号转导途径。

基因集	Pathway 富集结果	Pathway 注释表
HY5-IP	HY5-IP.htm	HY5-IP.path.xls

KO富集圈图：(第一圈：富集前20的pathway,圈外为基因数目的坐标尺。不同的颜色代表不同的A class; 第二圈：背景基因中该pathway的数目以及Q值。基因越多条形越长，Q值越小颜色越红；第三圈：该pathway差异基因数量第四圈：各pathway的RichFactor值(该pathway中差异数量除以所有数量),背景网格线，每一格代表0.1)

HY5-IP 富集圈图

Fig 6-5-1 KO 富集圈图

KO富集气泡图：(利用Q值最小的前20个pathway来作图，纵坐标为pathway，横坐标为富集因子(该pathway中差异数量除以所有数量)，大小表示数量多少，颜色越红Q值越小)");

HY5-IP

Fig 6-5-2 KO富集气泡图

KO富集条形图：(利用Q值最小的前20个pathway来作图，纵坐标为pathway，横坐标为该pathway数目占所有差异数目的百分比，颜色越深Q值越小，柱子上的数值为该pathway数量及Q值");

HY5-IP 富集柱形图

Fig 6-5-3 KO富集条形图

6.6 Peak以及周边基因结构的可视化

Integrative Genomics Viewer(IGV)是一种高性能的可视化工具，用于基因组中各类数据的整合可视化，可选择全基因组、染色体甚至是单个碱基水平进行浏览，并且能显示其他注释信息。我们提供reads在每条染色体比对结果的bigwig文件，可以使用IGV将结果进行可视化。

Fig 6-6-1 基因结构可视化

广州基迪奥生物科技有限公司

7 Motif分析

转录因子(Transcription Factors, TFs)是指能够以序列特异性方式结合 DNA 并且调节转录的蛋白质，TFs 通过识别特定的 DNA 序列来控制染色质和转录，以形成指导基因组表达的复杂系统。利用 MEME Suite（http://meme-suite.org/）进行 Motif 分析。

7.1 motif检测

我们利用 MEME Suite^[5] 中的 MEME-chip 检测 peak 序列中显著 motif 序列。MEME-chip 整合了 MEME（检测8-15bp）与 Dreme（检测3-8bp）功能，可同时检测长 motif 和短 motif 。

样本HY5-IP meme-chip网页版结果报告: /5.motif/HY5-IP/meme-chip/meme-chip.html

HY5-IP motifs

Fig 7-1-1 meme 显著motif序列图

不同颜色代表不同碱基类型，字母的高度代表这个碱基的保守性（字母越高，其在整个位点的频率越高，越保守）。

HY5-IP motifs

Fig 7-1-2 dreme 显著motif序列图

不同颜色代表不同碱基类型，字母的高度代表这个碱基的保守性（字母越高，其在整个位点的频率越高，越保守）。

7.2 各motif到peak顶点（submit）的距离统计

DAP-seq通常会检测到多个显著的motif，但理论上其中只有一个为转录因子的结合位点序列。转录因子结合位点序列理论上应该与peak的顶点重叠，即motif与peak顶点的距离应该趋近于0。通过统计各个motif与peak的顶点的距离，将有利于帮助我们判断哪个motif最有可能为转录因子的结合位点。

我们利用 MEME Suite^[5] 中的 fimo 确定 MEME-chip 结果中显著性 Top5 的 motif 在各序列中的位置。

Tab 7-2-1 样本HY5-IP motif位置统计表（前10行）
motif_id	motif_alt_id	sequence_name	start	stop	strand	score	p-value	q-value	matched_sequence	distToSummit	peak_name	chr	start	end	length	abs_summit	pileup	fold_enrichment	-log10(pvalue)	-log10(qvalue)	annotation	geneChr	geneStart	geneEnd	geneLength	exonNumber	geneStrand	geneId	transcriptId	distToTSS
KRYSACGTCATCA	MEME-1	chr01	2091270	2091282	-	23.0685	1.93e-09	0.0183	GGCCACGTCATCA	2	HY5-IP_peak_944	chr01	2091128	2091414	287	2091268	41.00	18.71765	47.69458	41.88219	Distal Intergenic	chr01	2098453	2099364	912	1	+	CA.PGAv.1.6.scaffold532.114	TC.CA.PGAv.1.6.scaffold532.114	-7185
KRYSACGTCATCA	MEME-1	chr02	45294235	45294247	-	23.0685	1.93e-09	0.0183	GGCCACGTCATCA	0	HY5-IP_peak_3796	chr02	45294067	45294396	330	45294237	78.00	28.24793	97.61915	91.11274	Distal Intergenic	chr02	45495761	45507131	11371	3	+	CA.PGAv.1.6.scaffold304.6	TC.CA.PGAv.1.6.scaffold304.6	-201524
KRYSACGTCATCA	MEME-1	chr02	146612397	146612409	+	21.7534	6.58e-09	0.0183	GGCCACGTCAGCA	8	HY5-IP_peak_4529	chr02	146612322	146612498	177	146612389	11.00	5.64598	8.51433	4.78954	Exon (TC.CA.PGAv.1.6.scaffold569.11/CA.PGAv.1.6.scaffold569.11, exon 1 of 1)	chr02	146612014	146612487	474	1	+	CA.PGAv.1.6.scaffold569.11	TC.CA.PGAv.1.6.scaffold569.11	375
KRYSACGTCATCA	MEME-1	chr02	161479952	161479964	+	21.3699	1.57e-08	0.0183	GACCACGTCATCA	4	HY5-IP_peak_4687	chr02	161479821	161480040	220	161479948	20.00	8.61598	16.99462	12.07359	Promoter (<=1kb)	chr02	161477648	161479599	1952	3	-	CA.PGAv.1.6.scaffold836.42	TC.CA.PGAv.1.6.scaffold836.42	-349
KRYSACGTCATCA	MEME-1	chr01	247583432	247583444	+	21.3699	1.57e-08	0.0183	GACCACGTCATCA	27	HY5-IP_peak_2912	chr01	247583343	247583531	189	247583405	15.00	5.72110	9.98125	5.88949	Distal Intergenic	chr01	247576643	247578743	2101	7	-	CA.PGAv.1.6.scaffold1249.15	TC.CA.PGAv.1.6.scaffold1249.15	-4662
KRYSACGTCATCA	MEME-1	PGAv.1.6.scaffold1921	92995	93007	-	21.1096	2.16e-08	0.0183	TGCCACGTCATCA	8	HY5-IP_peak_522	PGAv.1.6.scaffold1921	92872	93123	252	92987	23.00	11.54945	23.45871	18.24484	Promoter (<=1kb)	PGAv.1.6.scaffold1921	89407	92846	3440	7	-	CA.PGAv.1.6.scaffold1921.7	TC.CA.PGAv.1.6.scaffold1921.7	-141
KRYSACGTCATCA	MEME-1	chr12	2791426	2791438	-	21.1096	2.16e-08	0.0183	TGCCACGTCATCA	0	HY5-IP_peak_21616	chr12	2791307	2791583	277	2791429	36.00	15.18053	37.91662	32.30148	Exon (TC.CA.PGAv.1.6.scaffold1186.45/CA.PGAv.1.6.scaffold1186.45, exon 1 of 6)	chr12	2791112	2795744	4633	6	+	CA.PGAv.1.6.scaffold1186.45	TC.CA.PGAv.1.6.scaffold1186.45	317
KRYSACGTCATCA	MEME-1	chr12	4331995	4332007	-	21.1096	2.16e-08	0.0183	TGCCACGTCATCA	0	HY5-IP_peak_21630	chr12	4331884	4332127	244	4331995	29.00	14.43696	31.89792	26.42871	Distal Intergenic	chr12	4315563	4321997	6435	9	+	CA.PGAv.1.6.scaffold222.57	TC.CA.PGAv.1.6.scaffold222.57	16432
KRYSACGTCATCA	MEME-1	chr11	11925457	11925469	-	21.1096	2.16e-08	0.0183	TGCCACGTCATCA	0	HY5-IP_peak_19584	chr11	11925346	11925585	240	11925460	23.00	11.29195	23.03006	17.83872	Intron (TC.CA.PGAv.1.6.scaffold680.30/CA.PGAv.1.6.scaffold680.30, intron 2 of 2)	chr11	11924544	11925652	1109	3	+	CA.PGAv.1.6.scaffold680.30	TC.CA.PGAv.1.6.scaffold680.30	916
KRYSACGTCATCA	MEME-1	chr11	16042496	16042508	-	21.1096	2.16e-08	0.0183	TGCCACGTCATCA	0	HY5-IP_peak_19616	chr11	16042382	16042618	237	16042498	16.00	7.57619	13.44912	8.84629	Exon (TC.CA.PGAv.1.6.scaffold707.17/CA.PGAv.1.6.scaffold707.17, exon 1 of 18)	chr11	16042209	16054718	12510	18	+	CA.PGAv.1.6.scaffold707.17	TC.CA.PGAv.1.6.scaffold707.17	289

样本HY5-IP fimo motif位置统计表: /5.motif/HY5-IP/fimo/HY5-IP.motif_anno.xls

HY5-IP motifs

Fig 7-2-1 motif与peak距离的频率直方图

7.3 motif注释

我们利用 MEME-chip (地址：http://meme-suite.org/) 软件中的 Tomtom 模块将得到的 motif 序列与已知 motif 数据库进行比对，利用已知 motif 来注释检测到的 motif 。

样本HY5-IP meme tommom网页版结果报告: /5.motif/HY5-IP/meme-chip/meme_tomtom_out/tomtom.html

样本HY5-IP dreme tommom网页版结果报告: /5.motif/HY5-IP/meme-chip/dreme_tomtom_out/tomtom.html

广州基迪奥生物科技有限公司

8 目录结构

upload
├── 1.data_access                                    过滤统计目录
│   ├── all.read.stat.xls                               过滤信息统计表
│   ├── all.data.stat.xls                               过滤前后碱基信息统计表
│   ├── all.count.{png,pdf}                             样本过滤分析频数图
│   ├── all.fill.{png,pdf}                              样本过滤分析比例图
│   ├── *.old.png                                       各样品过滤前各项统计图
│   └── *.new.png                                       各样品过滤后各项统计图
├── 2.alignment                                      比对统计结果
│   ├── sample.alignstat.xls                            各样品比对参考基因组统计结果
│   ├── *.cov.{png,pdf}                                 测序深度累积分布统计图
│   ├── *.tss_tes.{png,pdf}                             测序深度分布图
│   ├── *.saturation.{png,pdf}                          测序饱和度分布图
│   └── *.chr.{png,svg}                                 reads在染色体上的分布图
├── 3.peak_analysis                                  Peak分析结果
│   ├── sample.peakstat.xls                             各样本 peak 数目统计表
│   ├── *.peak.len.{png,pdf}                            Peak长度分布
│   ├── *.peak.dep.{png,pdf}                            Peak深度分布
│   ├── *.peak.fe.{png,pdf}                             Peak富集倍数分布
│   └── *.peak.pv.{png,pdf}                             Peak置信程度分布
├── 4.peak_annotation                                Peak注释
│   ├── all.annostat.xls                                peak在基因功能元件上的分布统计表
│   ├── all.peakanno.bar.{png,pdf}                      peak在基因功能元件上的分布饼图
│   ├── all.peakanno.distToTSS.{png,pdf}                peak相对TSS距离分布比例图
│   ├── *.final.anno.xls                                peak相关基因注释表
│   ├── *.peakanno.bar.{png,pdf}                        peak在基因功能元件上的分布比例图
│   ├── *.peakanno.pie.{png,pdf}                        peak在基因功能元件上的分布饼状图
│   ├── *.peakanno.cov.{png.pdf}                        peak在染色体上的分布图
│   ├── *.distToTss.{png,pdf}                           peak_summit相对基因位置分布图
│   └── enrich                                          富集结果目录
├── 5.motif                                          Motif分析结果
│   ├── meme-chip                                       样本meme-chip结果目录
│   │   └── meme-chip.html                                 样本meme-chip网页报告
│   └── fimo                                            样本fimo结果目录
│       ├── fimo.html                                      样本fimo网页报告
│       ├── *.motif.dist.png                               样本motif距离peakSummit分布图
│       └── *.motif_anno.xls                               样本motif基因注释表
├── src                                              结果报告内容                                    
│   ├── content.html                                    结果报告内容
│   ├── css                                             结题报告css脚本
│   ├── js                                              结题报告js脚本
│   ├── doc                                             结题报告说明文档
│   └── image                                           结题报告图片
└── index.html                                       网页版结题报告

广州基迪奥生物科技有限公司

9 参考文献

[1] Langmead B, Salzberg S L. Fast gapped-read alignment with Bowtie 2[J]. Nature methods, 2012, 9(4): 357. 返回
[2] Fidel Ramírez, Ryan D P , Björn Grüning, et al. Deeptools2: A next generation web server for deep-sequencing data analysis[J]. Nucleic Acids Research, 2016, 44(Web Server issue):gkw257. 返回
[3] Zhang Y, Liu T, Meyer CA, et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biology, 2008, 9: R137 返回
[4] Yu G, Wang L G, He Q Y. ChIPseeker: an R/Bioconductor package for ChIP peak annotation, comparison and visualization[J]. Bioinformatics, 2015, 31(14): 2382-2383. 返回
[5] MEME suit : http://meme-suite.org/ 返回

广州基迪奥生物科技有限公司

10 附录

10.1 分析方法英文文档

分析方法文档（英文）：DAP-seq_method.pdf

10.2 结果文件查看

*.xls,*.txt ：结果数据表格文件，文件以制表符（Tab）分隔。unix/Linux/Mac用户使用 less 或 more 命令查看；windows用户使用高级文本编辑器Notepad++ 等查看，也可以用Microsoft Excel打开。

*.png：结果图像文件，位图，无损压缩。

*.pdf：结果图像文件，矢量图，可以放大和缩小而不失真，方便用户查看和编辑处理，可使用Adobe Illustrator进行图片编辑，用于文章发表等。

10.3 文章引用与致谢

如果您的研究课题使用了基迪奥的测序和分析服务，我们期望您在论文发表时，在Method部分或Acknowledgements部分引用或提及基迪奥公司。以下语句可供参考：

Method部分：The cDNA/DNA/Small RNA libraries were sequenced on the Illumina sequencing platform by Genedenovo Biotechnology Co., Ltd (Guangzhou, China).
Acknowledgements部分：We are grateful to/thank Guangzhou Genedenovo Biotechnology Co., Ltd for assisting in sequencing and/or bioinformatics analysis.

广州基迪奥生物科技有限公司

1 项目概述

2 项目介绍

2.1 建库流程

2.2 信息分析流程

3 数据分析与质控

3.1 过滤信息统计

3.2 碱基组成与质量分析

4 比对分析

4.1 比对基因组统计

4.2 基因组测序深度累积分布

4.3 基因组测序深度分布

4.4 测序饱和度分析

4.5 Reads在染色体上的分布

5 Peak分析

5.1 PeakCalling

5.2 Peak长度分布

5.3 Peak深度分布

5.4 Peak富集倍数分布

5.5 Peak置信程度分布

6 Peak注释

6.1 Peak相关基因分析

6.2 Peak在基因功能元件上的分布

6.3 Peak在染色体上的分布

6.4 peak相关基因 GO富集分析

6.5 peak相关基因 KO富集分析

6.6 Peak以及周边基因结构的可视化

7 Motif分析

7.1 motif检测

7.2 各motif到peak顶点（submit）的距离统计

7.3 motif注释

8 目录结构

9 参考文献

10 附录

10.1 分析方法英文文档

10.2 结果文件查看

10.3 文章引用与致谢

帮助文档