基迪奥生物结题报告

1 项目概述


项目编号	GDE21070121-1_std_1
项目名称	Benincasa hispida ------ 2 DAP-seq
参考基因组	ncbi_GCF_009727055.1
样品名称	BhYABBY4-IP ¦ B214-input

2 项目介绍

DNA亲和纯化测序（DAP-seq，DNA Affinity Purification sequencing），通过体外构建表达转录因子（TF，Transcription Factor）蛋白，与目标基因组片段结合，由此可以把目的蛋白所结合的基因组DNA片段富集下来。通过与高通量测序技术的结合，对DAP后的DNA产物进行测序分析，从全基因组范围内寻找目的蛋白的DNA结合位点，以高效率的测序手段得到高通量的数据结果。

2.1 建库流程

得到 DNA 样品后，首先对样品进行质量检测。样品质量检测合格后，进行文库构建，具体步骤如下：

1. DNA超声打断至约200bp大小，末端修复，3’ 端加A碱基，连接测序接头。

2. 在DAP实验完成后，进行DNA片段的PCR扩增，产物纯化。

3. 文库构建完成后，对文库质量进行检测，合格的文库用于上机测序。

Fig 2-1-1 DAP-seq实验建库流程图

2.2 信息分析流程

对下机数据进行数据过滤，去掉低质量数据。将过滤后数据与参考基因组进行比对，确认比对质量合格后，提取比对上唯一位置的序列，进行信息分析处理，得到标准信息分析结果和个性化分析结果。具体信息分析流程见图所示。

Fig 2-2-1 DAP-seq分析流程图

广州基迪奥生物科技有限公司

3 数据分析与质控

3.1 过滤信息统计

Tab 3-1-1 Reads 过滤信息统计表
Sample	Clean_Reads_Num	HQ_Clean_Reads_Num(%)	Read_length	adapter(%)	low_quality(%)	polyA(%)	N(%)
BhYABBY4-IP	79221650	79046930(99.78%)	150 + 150	37776(0.05%)	273888(0.17%)	0(0.0%)	0(0.0%)
B214-input	94054580	93842944(99.77%)	150 + 150	45790(0.05%)	331692(0.18%)	0(0.0%)	0(0.0%)


Fig 3-1-1 样本过滤分析频数图		Fig 3-1-2 样本过滤分析比例图

3.2 碱基组成与质量分析

Tab 3-2-1 过滤前后碱基信息统计表
Sample	Clean_Data(bp)	Q20(%)	Q30(%)	N(%)	GC(%)	HQ_Clean_Data(bp)	HQ_Q20(%)	HQ_Q30(%)	HQ_N(%)	HQ_GC(%)
BhYABBY4-IP	11883247500	11584420869(97.49%)	11052177423(93.01%)	56616(0.0%)	3860484867(32.48%)	11263431562	11008808639(97.74%)	10523404343(93.43%)	53670(0.0%)	3539014128(31.42%)
B214-input	14108187000	13783848554(97.7%)	13180853453(93.43%)	66923(0.0%)	5113842838(36.25%)	13534948917	13248166188(97.88%)	12686790548(93.73%)	64164(0.0%)	4817304043(35.59%)

BhYABBY4-IP
B214-input

Fig 3-2-1 过滤前后碱基分布

广州基迪奥生物科技有限公司

4 比对分析

4.1 比对基因组统计

利用比对软件 Bowtie2^[1] 将数据比对到参考基因组，过滤掉低比对质量值的 reads ，最终将比对到基因组上唯一位置的 reads (唯一比对 reads )用于后续的信息分析。

Tab 4-1-1 各样品比对参考基因组统计结果
Sample_ID	Total_Reads	UnMapped_Reads	Mapped_Reads	Multi_Mapped_Reads	Unique_Mapped_Reads	Duplicate_Reads
BhYABBY4-IP	79046930	2509031-3.17%	76537899-96.83%	34464079-43.60%	42073820-53.23%	24156432-31.56%
B214-input	93842944	3032645-3.23%	90810299-96.77%	47836147-50.97%	42974152-45.79%	19225638-21.17%

4.2 基因组测序深度累积分布

以比对后得到的唯一比对序列为分析对象，分析其在参考基因组上的覆盖分布，统计基因组位点的深度信息，得到基因组上测序深度统计结果。

BhYABBY4-IP
B214-input

Fig 4-2-1 测序深度累积分布统计图

4.3 基因组测序深度分布

利用 deepTools^[2] 软件对转录起始位点（TSS）到转录终止位点（TES）区间，及基因上下游 2k 区间的所有 reads 进行统计，设置大小为 50bp 的窗口，计算每个窗口内的平均 reads 深度，并绘制出 reads 相对于基因特定位置的分布折线图。

BhYABBY4-IP
B214-input

Fig 4-3-1 测序深度分布图

4.4 测序饱和度分析

测序饱和度分析是用来衡量一个样品的测序量是否达到饱和的标准。随着测序量（reads数量）的增多，检测到的基因数也随之上升。当测序量达到某个值时，其检测到的基因数增长速度趋于平缓，说明检测到的基因数趋于饱和，如下图所示：

BhYABBY4-IP
B214-input

Fig 4-4-1 测序饱和度分布

4.5 Reads在染色体上的分布

将唯一比对、去重复后的 reads 比对到基因组上各个染色体（分正负链）的密度进行统计。

BhYABBY4-IP
B214-input

Fig 4-5-1 reads在染色体上的分布图

广州基迪奥生物科技有限公司

5 Peak分析

测序分析 DAP 后的 DNA 产物，从全基因组范围内寻找目的蛋白与 DNA 的结合位点，利用 MACS2^[3] 分析软件在全基因组范围进行 peak（DAP Sequencing富集区域）扫描（peak calling），阈值为 q-value<0.05 ，并对 peak 在基因组上的位置信息， peak 区域序列信息等进行分析，筛选出 peak 相关基因。我们将对各处理组分别检测peak。如果一个处理组有多个生物学重复，MACS软件将合并多个生物学重复的数据，输出统一的peak数据。

5.1 PeakCalling

Tab 5-1-1 各样本 peak 数目统计表
SampleId	PeakNumber	TotalLength	AverageLength	TotalPileup	AveragePileup	GenomeRatio(%)	FRiP(%)
BhYABBY4-IP	40988	12068686	294	814496	19	1.34%	10.32%

Tab 5-1-2 样本 BhYABBY4-IP peaks结果信息统计表（前10行）
chr	start	end	length	abs_summit	pileup	-log10(pvalue)	fold_enrichment	-log10(qvalue)	name
NC_052349.1	195	565	371	347	14.00	3.94745	2.64013	1.93038	BhYABBY4-IP_peak_1
NC_052349.1	1311	1524	214	1434	19.00	6.32149	3.27486	3.70891	BhYABBY4-IP_peak_2
NC_052349.1	7715	7910	196	7807	17.00	5.37157	3.04556	2.99084	BhYABBY4-IP_peak_3
NC_052349.1	126647	126818	172	126767	18.00	6.14926	3.29326	3.59354	BhYABBY4-IP_peak_4
NC_052349.1	127109	127297	189	127245	21.00	8.22087	3.86517	5.22626	BhYABBY4-IP_peak_5
NC_052349.1	149352	149598	247	149386	17.00	4.28247	2.58683	2.18159	BhYABBY4-IP_peak_6
NC_052349.1	174606	174782	177	174759	19.00	6.90353	3.52018	4.16497	BhYABBY4-IP_peak_7
NC_052349.1	194894	195501	608	195072	28.00	14.03579	5.33260	10.10866	BhYABBY4-IP_peak_8
NC_052349.1	196319	196613	295	196392	28.00	7.52962	3.04882	4.67374	BhYABBY4-IP_peak_9
NC_052349.1	203722	203942	221	203836	19.00	6.91918	3.52688	4.17848	BhYABBY4-IP_peak_10

BhYABBY4-IP peaks结果信息统计表: /3.peak_analysis/BhYABBY4-IP_peaks.xls

5.2 Peak长度分布

Fig 5-2-1 BhYABBY4-IP

5.3 Peak深度分布

Fig 5-3-1 BhYABBY4-IP

5.4 Peak富集倍数分布

Fig 5-4-1 BhYABBY4-IP

5.5 Peak置信程度分布

Fig 5-5-1 BhYABBY4-IP

广州基迪奥生物科技有限公司

6 Peak注释

利用 ChIPseeker^[4] R包，对 peak 相关基因进行注释。

6.1 Peak相关基因分析

根据peak在基因组上的区域信息及基因的注释信息，得到关于peak相关基因，从一定程度上表示了目的蛋白或特定组蛋白修饰可能调控的靶基因区域。

Tab 6-1-1 样本BhYABBY4-IP peak相关基因注释表（前10行）
peak_name	chr	start	end	length	abs_summit	pileup	fold_enrichment	-log10(pvalue)	-log10(qvalue)	annotation	geneChr	geneStart	geneEnd	geneLength	exonNumber	geneStrand	geneId	transcriptId	distToTSS	Symbol	Description	KEGG_A_class	KEGG_B_class	Pathway	K_ID	GO_Component	GO_Function	GO_Process
BhYABBY4-IP_peak_9	NC_052349.1	196319	196613	295	196392	28.00	3.04882	7.52962	4.67374	Downstream (1-2kb)	NC_052349.1	198303	203622	5320	3	-	ncbi_120074624	XM_039027805.1	7230	At2g33170	XP_008438405.1 PREDICTED: probable leucine-rich repeat receptor-like protein kinase At5g63930 [Cucumis melo]	-	-	-	-	-	GO:0004672//protein kinase activity;GO:0005515//protein binding;GO:0005524//ATP binding	GO:0006468//protein phosphorylation
BhYABBY4-IP_peak_10	NC_052349.1	203722	203942	221	203836	19.00	3.52688	6.91918	4.17848	Promoter (<=1kb)	NC_052349.1	198303	203622	5320	3	-	ncbi_120074624	XM_039027805.1	-214	At2g33170	XP_008438405.1 PREDICTED: probable leucine-rich repeat receptor-like protein kinase At5g63930 [Cucumis melo]	-	-	-	-	-	GO:0004672//protein kinase activity;GO:0005515//protein binding;GO:0005524//ATP binding	GO:0006468//protein phosphorylation
BhYABBY4-IP_peak_14	NC_052349.1	218862	219164	303	218953	17.00	3.34893	6.05716	3.51753	Promoter (1-2kb)	NC_052349.1	220913	225139	4227	10	+	ncbi_120087383	XM_039044359.1	-1960	PAM71-HL	XP_008438406.1 PREDICTED: GDT1-like protein 2, chloroplastic [Cucumis melo]	-	-	-	-	GO:0009512//cytochrome b6f complex	GO:0009055//electron carrier activity	-
BhYABBY4-IP_peak_15	NC_052349.1	266390	266629	240	266497	19.00	2.70859	4.90295	2.64288	Promoter (<=1kb)	NC_052349.1	262016	266261	4246	5	-	ncbi_120069147	XM_039020829.1	-236	GLCAT14A	XP_022974530.1 beta-glucuronosyltransferase GlcAT14A [Cucurbita maxima]	-	-	-	-	GO:0016020//membrane	GO:0016757//transferase activity, transferring glycosyl groups	-
BhYABBY4-IP_peak_16	NC_052349.1	292375	292776	402	292508	23.00	3.96619	9.00803	5.84187	Promoter (<=1kb)	NC_052349.1	284761	291768	7008	16	-	ncbi_120073368	XM_039026194.1	-740	SERINC3	XP_008438413.1 PREDICTED: probable serine incorporator isoform X2 [Cucumis melo]	-	-	-	-	GO:0016020//membrane;GO:0016021//integral component of membrane	-	GO:0007155//cell adhesion;GO:0042246//tissue regeneration
BhYABBY4-IP_peak_18	NC_052349.1	364640	364844	205	364769	17.00	2.43773	3.91442	1.91067	Downstream (1-2kb)	NC_052349.1	366375	367636	1262	2	-	ncbi_120071386	XM_039023646.1	2867	PRP1	XP_008438425.1 PREDICTED: probable glutathione S-transferase [Cucumis melo]	Metabolism;Metabolism	Global and overview maps;Metabolism of other amino acids	ko01100//Metabolic pathways;ko00480//Glutathione metabolism	K00799;K00799	-	GO:0005515//protein binding;GO:0015035//protein disulfide oxidoreductase activity;GO:0016034//maleylacetoacetate isomerase activity	GO:0006559//L-phenylalanine catabolic process;GO:0006572//tyrosine catabolic process;GO:0006749//glutathione metabolic process;GO:0006790//sulfur compound metabolic process;GO:0042965//glutaredoxin biosynthetic process;GO:0045454//cell redox homeostasis;GO:0055114//oxidation-reduction process
BhYABBY4-IP_peak_19	NC_052349.1	368164	368537	374	368308	18.00	3.58193	6.80636	4.10294	Promoter (<=1kb)	NC_052349.1	366375	367636	1262	2	-	ncbi_120071386	XM_039023646.1	-672	PRP1	XP_008438425.1 PREDICTED: probable glutathione S-transferase [Cucumis melo]	Metabolism;Metabolism	Global and overview maps;Metabolism of other amino acids	ko01100//Metabolic pathways;ko00480//Glutathione metabolism	K00799;K00799	-	GO:0005515//protein binding;GO:0015035//protein disulfide oxidoreductase activity;GO:0016034//maleylacetoacetate isomerase activity	GO:0006559//L-phenylalanine catabolic process;GO:0006572//tyrosine catabolic process;GO:0006749//glutathione metabolic process;GO:0006790//sulfur compound metabolic process;GO:0042965//glutaredoxin biosynthetic process;GO:0045454//cell redox homeostasis;GO:0055114//oxidation-reduction process
BhYABBY4-IP_peak_20	NC_052349.1	369350	369543	194	369459	15.00	2.87145	4.61135	2.41714	Promoter (1-2kb)	NC_052349.1	366375	367636	1262	2	-	ncbi_120071386	XM_039023646.1	-1823	PRP1	XP_008438425.1 PREDICTED: probable glutathione S-transferase [Cucumis melo]	Metabolism;Metabolism	Global and overview maps;Metabolism of other amino acids	ko01100//Metabolic pathways;ko00480//Glutathione metabolism	K00799;K00799	-	GO:0005515//protein binding;GO:0015035//protein disulfide oxidoreductase activity;GO:0016034//maleylacetoacetate isomerase activity	GO:0006559//L-phenylalanine catabolic process;GO:0006572//tyrosine catabolic process;GO:0006749//glutathione metabolic process;GO:0006790//sulfur compound metabolic process;GO:0042965//glutaredoxin biosynthetic process;GO:0045454//cell redox homeostasis;GO:0055114//oxidation-reduction process
BhYABBY4-IP_peak_26	NC_052349.1	538974	539233	260	539084	18.00	3.11112	5.72195	3.25237	Intron (XM_039046086.1/ncbi_120088661, intron 10 of 35)	NC_052349.1	519537	544395	24859	36	-	ncbi_120088661	XM_039046086.1	5311	XI-B	XP_008438435.1 PREDICTED: myosin-6 isoform X1 [Cucumis melo]	-	-	-	-	GO:0016459//myosin complex	GO:0000155//phosphorelay sensor kinase activity;GO:0003774//motor activity;GO:0004672//protein kinase activity;GO:0005515//protein binding;GO:0005524//ATP binding	GO:0000160//phosphorelay signal transduction system;GO:0006109//regulation of carbohydrate metabolic process;GO:0007059//chromosome segregation;GO:0030261//chromosome condensation
BhYABBY4-IP_peak_27	NC_052349.1	553098	553606	509	553176	21.00	3.83668	8.15256	5.16841	Downstream (<1kb)	NC_052349.1	553646	556699	3054	4	-	ncbi_120084783	XM_039040606.1	3523	BAM1	XP_008438436.1 PREDICTED: beta-amylase 1, chloroplastic-like [Cucumis melo]	Metabolism;Metabolism;Metabolism	Global and overview maps;Global and overview maps;Carbohydrate metabolism	ko01100//Metabolic pathways;ko01110//Biosynthesis of secondary metabolites;ko00500//Starch and sucrose metabolism	K01177;K01177;K01177	GO:0009341//beta-galactosidase complex	GO:0004565//beta-galactosidase activity;GO:0016161//beta-amylase activity	GO:0000272//polysaccharide catabolic process;GO:0005975//carbohydrate metabolic process

BhYABBY4-IP peak相关基因注释表: /4.peak_annotation/BhYABBY4-IP.final.anno.xls

6.2 Peak在基因功能元件上的分布

利用参考基因组gtf数据库将与peak最相邻的基因（peak中心与基因的TTS距离最近）进行注释，统计peak在基因各功能区域的分布情况，按照promoter（转录起始位点上游2K序列范围）、5'UTR、3'UTR、Exon、Intron、Downstream（转录终止位点下游2K序列范围）、Intergenic（基因间区）的优先级顺序，确定peak与各个功能区域的对应关系。

Tab 6-2-1 各样本peak在基因功能元件上的分布统计表
sample	peakCount	promoter	5'UTR	3'UTR	1st_exon	other_exon	1st_intron	ohter_intron	downstream	distal_intergenic
BhYABBY4-IP	40988	5836-14.24%	106-0.26%	260-0.63%	41-0.10%	106-0.26%	1085-2.65%	2534-6.18%	2975-7.26%	28045-68.42%

Fig 6-2-1 BhYABBY4-IP

Fig 6-2-2 BhYABBY4-IP


Fig 6-2-3 各样本peak在基因功能元件上的分布比例图		Fig 6-2-4 各样本peak相对TSS距离分布比例图

6.3 Peak在染色体上的分布

Fig 6-3-1 BhYABBY4-IP

6.4 peak相关基因 GO富集分析

Gene Ontology（简称GO）是一个国际标准化的基因功能分类体系，提供了一套动态更新的标准词汇表（controlled vocabulary）来全面描述生物体中基因和基因产物的属性。GO总共有三个ontology（本体），分别描述基因的分子功能（molecular function）、细胞组分（cellular component）、参与的生物过程（biological process）。GO的基本单位是term（词条、节点），每个term都对应一个属性。 GO功能分析一方面给出基因的GO功能分类注释；另一方面给出基因的GO功能显著性富集分析。首先，我们将基因向GO数据库(http://www.geneontology.org/)的各term映射，并计算每个term的基因数，从而得到具有某个GO功能的基因列表及基因数目统计。然后应用超几何检验，找出与整个基因组背景相比，在基因中显著富集的GO条目。

基因集	细胞组分	分子功能	生物学过程	GO 分类表
BhYABBY4-IP	BhYABBY4-IP.C.html	BhYABBY4-IP.F.html	BhYABBY4-IP.P.html	BhYABBY4-IP.Level2.xls

GO富集圈图：(第一圈：富集前20的GOterm,圈外为基因数目的坐标尺。不同的颜色代表不同的Ontology; 第二圈：背景基因中该GOterm的数目以及Q值。基因越多条形越长，Q值越小颜色越红；第三圈：该GOterm差异基因数量第四圈：各GOterm的RichFactor值(该GOterm中差异数量除以所有数量),背景网格线，每一格代表0.1)

BhYABBY4-IP 富集圈图

Fig 6-4-1 GO 富集圈图

GO 富集分类柱状图：（横坐标为二级GOterm，纵坐标为该term里的基因数量,不同颜色表色不同类型GOterm）

BhYABBY4-IP

Fig 6-4-2 GO富集分类柱状图

GO富集气泡图：(利用Q值最小的前20个GOterm来作图，纵坐标为GOterm，横坐标为富集因子(该GOterm中差异数量除以所有数量)，大小表示数量多少，颜色越红Q值越小)");

BhYABBY4-IP.C 气泡图
BhYABBY4-IP.F 气泡图
BhYABBY4-IP.P 气泡图

Fig 6-4-3 GO富集气泡图

GO富集条形图：(利用Q值最小的前20个GOterm来作图，纵坐标为GOterm，横坐标为该GOterm数目占所有差异数目的百分比，颜色越深Q值越小，柱子上的数值为该GOterm数量及Q值");

BhYABBY4-IP.C 富集柱形图
BhYABBY4-IP.F 富集柱形图
BhYABBY4-IP.P 富集柱形图

Fig 6-4-4 GO富集条形图

6.5 peak相关基因 KO富集分析

在生物体内，不同基因相互协调行使其生物学，基于Pathway的分析有助于更进一步了解基因的生物学功能。KEGG是有关Pathway的主要公共数据库。 Pathway显著性富集分析以KEGG Pathway为单位，应用超几何检验，找出与整个基因组背景相比，在基因中显著性富集的Pathway。通过Pathway显著性富集能确定基因参与的最主要生化代谢途径和信号转导途径。

基因集	Pathway 富集结果	Pathway 注释表
BhYABBY4-IP	BhYABBY4-IP.htm	BhYABBY4-IP.path.xls

KO富集圈图：(第一圈：富集前20的pathway,圈外为基因数目的坐标尺。不同的颜色代表不同的A class; 第二圈：背景基因中该pathway的数目以及Q值。基因越多条形越长，Q值越小颜色越红；第三圈：该pathway差异基因数量第四圈：各pathway的RichFactor值(该pathway中差异数量除以所有数量),背景网格线，每一格代表0.1)

BhYABBY4-IP 富集圈图

Fig 6-5-1 KO 富集圈图

KO富集气泡图：(利用Q值最小的前20个pathway来作图，纵坐标为pathway，横坐标为富集因子(该pathway中差异数量除以所有数量)，大小表示数量多少，颜色越红Q值越小)");

BhYABBY4-IP

Fig 6-5-2 KO富集气泡图

KO富集条形图：(利用Q值最小的前20个pathway来作图，纵坐标为pathway，横坐标为该pathway数目占所有差异数目的百分比，颜色越深Q值越小，柱子上的数值为该pathway数量及Q值");

BhYABBY4-IP 富集柱形图

Fig 6-5-3 KO富集条形图

6.6 Peak以及周边基因结构的可视化

Integrative Genomics Viewer(IGV)是一种高性能的可视化工具，用于基因组中各类数据的整合可视化，可选择全基因组、染色体甚至是单个碱基水平进行浏览，并且能显示其他注释信息。我们提供reads在每条染色体比对结果的bigwig文件，可以使用IGV将结果进行可视化。

Fig 6-6-1 基因结构可视化

广州基迪奥生物科技有限公司

7 Motif分析

转录因子(Transcription Factors, TFs)是指能够以序列特异性方式结合 DNA 并且调节转录的蛋白质，TFs 通过识别特定的 DNA 序列来控制染色质和转录，以形成指导基因组表达的复杂系统。利用 MEME Suite（http://meme-suite.org/）进行 Motif 分析。

7.1 motif检测

我们利用 MEME Suite^[5] 中的 MEME-chip 检测 peak 序列中显著 motif 序列。MEME-chip 整合了 MEME（检测8-15bp）与 Dreme（检测3-8bp）功能，可同时检测长 motif 和短 motif 。

样本BhYABBY4-IP meme-chip网页版结果报告: /5.motif/BhYABBY4-IP/meme-chip/meme-chip.html

BhYABBY4-IP motifs

Fig 7-1-1 meme 显著motif序列图

不同颜色代表不同碱基类型，字母的高度代表这个碱基的保守性（字母越高，其在整个位点的频率越高，越保守）。

BhYABBY4-IP motifs

Fig 7-1-2 dreme 显著motif序列图

不同颜色代表不同碱基类型，字母的高度代表这个碱基的保守性（字母越高，其在整个位点的频率越高，越保守）。

7.2 各motif到peak顶点（submit）的距离统计

DAP-seq通常会检测到多个显著的motif，但理论上其中只有一个为转录因子的结合位点序列。转录因子结合位点序列理论上应该与peak的顶点重叠，即motif与peak顶点的距离应该趋近于0。通过统计各个motif与peak的顶点的距离，将有利于帮助我们判断哪个motif最有可能为转录因子的结合位点。

我们利用 MEME Suite^[5] 中的 fimo 确定 MEME-chip 结果中显著性 Top5 的 motif 在各序列中的位置。

Tab 7-2-1 样本BhYABBY4-IP motif位置统计表（前10行）
motif_id	motif_alt_id	sequence_name	start	stop	strand	score	p-value	q-value	matched_sequence	distToSummit	peak_name	chr	start	end	length	abs_summit	pileup	fold_enrichment	-log10(pvalue)	-log10(qvalue)	annotation	geneChr	geneStart	geneEnd	geneLength	exonNumber	geneStrand	geneId	transcriptId	distToTSS
TTTHTYTTYTTYTTT	MEME-1	NC_052359.1	15217347	15217361	-	20.5758	1.04e-09	0.00373	TTTCTCTCCTTCTTT	60	BhYABBY4-IP_peak_32139	NC_052359.1	15217169	15217449	281	15217287	22.00	3.92429	8.63179	5.54727	Distal Intergenic	NC_052359.1	15232799	15236790	3992	2	+	ncbi_120091818	XM_039049959.1	-15512
TTTHTYTTYTTYTTT	MEME-1	NC_052352.1	34319336	34319350	-	20.1667	1.3e-09	0.00373	TTTCTCTCCTTCTCT	157	BhYABBY4-IP_peak_11996	NC_052352.1	34319123	34319600	478	34319179	18.00	2.57316	4.39809	2.26593	Distal Intergenic	NC_052352.1	34339407	34345580	6174	8	-	ncbi_120075660	XM_039029254.1	26401
TTTHTYTTYTTYTTT	MEME-1	NC_052356.1	76614	76628	+	19.6818	5.74e-09	0.00373	tttctcttcttcttt	37	BhYABBY4-IP_peak_21344	NC_052356.1	76462	76749	288	76577	17.00	3.55389	6.50583	3.85688	Distal Intergenic	NC_052356.1	92196	92720	525	1	-	ncbi_120083073	XM_039038607.1	16143
TTTHTYTTYTTYTTT	MEME-1	NW_024064913.1	150136	150150	-	19.6818	5.74e-09	0.00373	TTTCTCTTCTTCTTT	-40	BhYABBY4-IP_peak_40408	NW_024064913.1	149827	150295	469	150190	21.00	4.55454	9.80462	6.49649	Distal Intergenic	NW_024064913.1	179385	179711	327	1	-	ncbi_120069666	XM_039021448.1	29521
TTTHTYTTYTTYTTT	MEME-1	NW_024064891.1	864986	865000	+	19.6818	5.74e-09	0.00373	tttctcttcttcttt	-3	BhYABBY4-IP_peak_40314	NW_024064891.1	864938	865104	167	865003	20.00	3.99548	8.25544	5.23524	Distal Intergenic	NW_024064891.1	838114	838755	642	1	+	ncbi_120069592	XM_039021382.1	26889
TTTHTYTTYTTYTTT	MEME-1	NC_052352.1	9076907	9076921	-	19.6818	5.74e-09	0.00373	TTTCTCTTCTTCTTT	-39	BhYABBY4-IP_peak_10881	NC_052352.1	9076884	9077341	458	9076960	22.00	3.99634	8.80778	5.70189	Downstream (1-2kb)	NC_052352.1	9070948	9074161	3214	7	-	ncbi_120075543	XM_039029029.1	-2799
TTTHTYTTYTTYTTT	MEME-1	NC_052360.1	9590904	9590918	+	19.6818	5.74e-09	0.00373	tttctcttcttcttt	-70	BhYABBY4-IP_peak_35832	NC_052360.1	9590880	9591139	260	9590988	24.00	4.02371	9.43092	6.20417	Distal Intergenic	NC_052360.1	9651548	9654429	2882	4	+	ncbi_120068030	XM_039019699.1	-60560
TTTHTYTTYTTYTTT	MEME-1	NC_052355.1	15531369	15531383	+	19.6818	5.74e-09	0.00373	tttctcttcttcttt	209	BhYABBY4-IP_peak_19442	NC_052355.1	15531088	15531495	408	15531160	19.00	4.15084	8.32077	5.28090	Distal Intergenic	NC_052355.1	15434885	15440791	5907	10	-	ncbi_120080991	XM_039035674.1	-90369
TTTHTYTTYTTYTTT	MEME-1	NC_052360.1	26716914	26716928	-	19.6818	5.74e-09	0.00373	TTTCTCTTCTTCTTT	-3	BhYABBY4-IP_peak_36639	NC_052360.1	26716599	26716942	344	26716931	18.00	2.30720	3.70869	1.76631	Distal Intergenic	NC_052360.1	26729291	26732221	2931	1	+	ncbi_120092882	XM_039051125.1	-12360
TTTHTYTTYTTYTTT	MEME-1	NC_052356.1	29817365	29817379	-	19.6818	5.74e-09	0.00373	TTTCTCTTCTTCTTT	0	BhYABBY4-IP_peak_22653	NC_052356.1	29817225	29817445	221	29817365	27.00	5.79669	14.75579	10.73444	Distal Intergenic	NC_052356.1	29791416	29793341	1926	2	-	ncbi_120083489	XR_005483436.1	-24024

样本BhYABBY4-IP fimo motif位置统计表: /5.motif/BhYABBY4-IP/fimo/BhYABBY4-IP.motif_anno.xls

BhYABBY4-IP motifs

Fig 7-2-1 motif与peak距离的频率直方图

7.3 motif注释

我们利用 MEME-chip (地址：http://meme-suite.org/) 软件中的 Tomtom 模块将得到的 motif 序列与已知 motif 数据库进行比对，利用已知 motif 来注释检测到的 motif 。

样本BhYABBY4-IP meme tommom网页版结果报告: /5.motif/BhYABBY4-IP/meme-chip/meme_tomtom_out/tomtom.html

样本BhYABBY4-IP dreme tommom网页版结果报告: /5.motif/BhYABBY4-IP/meme-chip/dreme_tomtom_out/tomtom.html

广州基迪奥生物科技有限公司

8 目录结构

upload
├── 1.data_access                                    过滤统计目录
│   ├── all.read.stat.xls                               过滤信息统计表
│   ├── all.data.stat.xls                               过滤前后碱基信息统计表
│   ├── all.count.{png,pdf}                             样本过滤分析频数图
│   ├── all.fill.{png,pdf}                              样本过滤分析比例图
│   ├── *.old.png                                       各样品过滤前各项统计图
│   └── *.new.png                                       各样品过滤后各项统计图
├── 2.alignment                                      比对统计结果
│   ├── sample.alignstat.xls                            各样品比对参考基因组统计结果
│   ├── *.cov.{png,pdf}                                 测序深度累积分布统计图
│   ├── *.tss_tes.{png,pdf}                             测序深度分布图
│   ├── *.saturation.{png,pdf}                          测序饱和度分布图
│   └── *.chr.{png,svg}                                 reads在染色体上的分布图
├── 3.peak_analysis                                  Peak分析结果
│   ├── sample.peakstat.xls                             各样本 peak 数目统计表
│   ├── *.peak.len.{png,pdf}                            Peak长度分布
│   ├── *.peak.dep.{png,pdf}                            Peak深度分布
│   ├── *.peak.fe.{png,pdf}                             Peak富集倍数分布
│   └── *.peak.pv.{png,pdf}                             Peak置信程度分布
├── 4.peak_annotation                                Peak注释
│   ├── all.annostat.xls                                peak在基因功能元件上的分布统计表
│   ├── all.peakanno.bar.{png,pdf}                      peak在基因功能元件上的分布饼图
│   ├── all.peakanno.distToTSS.{png,pdf}                peak相对TSS距离分布比例图
│   ├── *.final.anno.xls                                peak相关基因注释表
│   ├── *.peakanno.bar.{png,pdf}                        peak在基因功能元件上的分布比例图
│   ├── *.peakanno.pie.{png,pdf}                        peak在基因功能元件上的分布饼状图
│   ├── *.peakanno.cov.{png.pdf}                        peak在染色体上的分布图
│   ├── *.distToTss.{png,pdf}                           peak_summit相对基因位置分布图
│   └── enrich                                          富集结果目录
├── 5.motif                                          Motif分析结果
│   ├── meme-chip                                       样本meme-chip结果目录
│   │   └── meme-chip.html                                 样本meme-chip网页报告
│   └── fimo                                            样本fimo结果目录
│       ├── fimo.html                                      样本fimo网页报告
│       ├── *.motif.dist.png                               样本motif距离peakSummit分布图
│       └── *.motif_anno.xls                               样本motif基因注释表
├── src                                              结果报告内容                                    
│   ├── content.html                                    结果报告内容
│   ├── css                                             结题报告css脚本
│   ├── js                                              结题报告js脚本
│   ├── doc                                             结题报告说明文档
│   └── image                                           结题报告图片
└── index.html                                       网页版结题报告

广州基迪奥生物科技有限公司

9 参考文献

[1] Langmead B, Salzberg S L. Fast gapped-read alignment with Bowtie 2[J]. Nature methods, 2012, 9(4): 357. 返回
[2] Fidel Ramírez, Ryan D P , Björn Grüning, et al. Deeptools2: A next generation web server for deep-sequencing data analysis[J]. Nucleic Acids Research, 2016, 44(Web Server issue):gkw257. 返回
[3] Zhang Y, Liu T, Meyer CA, et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biology, 2008, 9: R137 返回
[4] Yu G, Wang L G, He Q Y. ChIPseeker: an R/Bioconductor package for ChIP peak annotation, comparison and visualization[J]. Bioinformatics, 2015, 31(14): 2382-2383. 返回
[5] MEME suit : http://meme-suite.org/ 返回

广州基迪奥生物科技有限公司

10 附录

10.1 分析方法英文文档

分析方法文档（英文）：DAP-seq_method.pdf

10.2 结果文件查看

*.xls,*.txt ：结果数据表格文件，文件以制表符（Tab）分隔。unix/Linux/Mac用户使用 less 或 more 命令查看；windows用户使用高级文本编辑器Notepad++ 等查看，也可以用Microsoft Excel打开。

*.png：结果图像文件，位图，无损压缩。

*.pdf：结果图像文件，矢量图，可以放大和缩小而不失真，方便用户查看和编辑处理，可使用Adobe Illustrator进行图片编辑，用于文章发表等。

10.3 文章引用与致谢

如果您的研究课题使用了基迪奥的测序和分析服务，我们期望您在论文发表时，在Method部分或Acknowledgements部分引用或提及基迪奥公司。以下语句可供参考：

Method部分：The cDNA/DNA/Small RNA libraries were sequenced on the Illumina sequencing platform by Genedenovo Biotechnology Co., Ltd (Guangzhou, China).
Acknowledgements部分：We are grateful to/thank Guangzhou Genedenovo Biotechnology Co., Ltd for assisting in sequencing and/or bioinformatics analysis.

广州基迪奥生物科技有限公司

1 项目概述

2 项目介绍

2.1 建库流程

2.2 信息分析流程

3 数据分析与质控

3.1 过滤信息统计

3.2 碱基组成与质量分析

4 比对分析

4.1 比对基因组统计

4.2 基因组测序深度累积分布

4.3 基因组测序深度分布

4.4 测序饱和度分析

4.5 Reads在染色体上的分布

5 Peak分析

5.1 PeakCalling

5.2 Peak长度分布

5.3 Peak深度分布

5.4 Peak富集倍数分布

5.5 Peak置信程度分布

6 Peak注释

6.1 Peak相关基因分析

6.2 Peak在基因功能元件上的分布

6.3 Peak在染色体上的分布

6.4 peak相关基因 GO富集分析

6.5 peak相关基因 KO富集分析

6.6 Peak以及周边基因结构的可视化

7 Motif分析

7.1 motif检测

7.2 各motif到peak顶点（submit）的距离统计

7.3 motif注释

8 目录结构

9 参考文献

10 附录

10.1 分析方法英文文档

10.2 结果文件查看

10.3 文章引用与致谢

帮助文档