1 项目概述
|
|
项目编号 |
GDE21070121-1_std_1 |
项目名称 |
Benincasa hispida ------ 2 DAP-seq |
参考基因组 |
ncbi_GCF_009727055.1 |
样品名称 |
BhYABBY4-IP ¦ B214-input
|
2 项目介绍
DNA亲和纯化测序(DAP-seq,DNA Affinity Purification sequencing),通过体外构建表达转录因子(TF,Transcription Factor)蛋白,与目标基因组片段结合,由此可以把目的蛋白所结合的基因组DNA片段富集下来。通过与高通量测序技术的结合,对DAP后的DNA产物进行测序分析,从全基因组范围内寻找目的蛋白的DNA结合位点,以高效率的测序手段得到高通量的数据结果。
2.1 建库流程
得到 DNA 样品后,首先对样品进行质量检测。样品质量检测合格后,进行文库构建,具体步骤如下:
1. DNA超声打断至约200bp大小,末端修复,3’ 端加A碱基,连接测序接头。
2. 在DAP实验完成后,进行DNA片段的PCR扩增,产物纯化。
3. 文库构建完成后,对文库质量进行检测,合格的文库用于上机测序。
![]() |
Fig 2-1-1 DAP-seq实验建库流程图 |
2.2 信息分析流程
对下机数据进行数据过滤,去掉低质量数据。将过滤后数据与参考基因组进行比对,确认比对质量合格后,提取比对上唯一位置的序列,进行信息分析处理,得到标准信息分析结果和个性化分析结果。具体信息分析流程见图所示。
![]() |
Fig 2-2-1 DAP-seq分析流程图 |
广州基迪奥生物科技有限公司
4 比对分析
4.1 比对基因组统计
利用比对软件 Bowtie2
[1] 将数据比对到参考基因组,过滤掉低比对质量值的 reads ,最终将比对到基因组上唯一位置的 reads (唯一比对 reads )用于后续的信息分析。
Tab 4-1-1 各样品比对参考基因组统计结果
Sample_ID | Total_Reads | UnMapped_Reads | Mapped_Reads | Multi_Mapped_Reads | Unique_Mapped_Reads | Duplicate_Reads |
BhYABBY4-IP | 79046930 | 2509031-3.17% | 76537899-96.83% | 34464079-43.60% | 42073820-53.23% | 24156432-31.56% |
B214-input | 93842944 | 3032645-3.23% | 90810299-96.77% | 47836147-50.97% | 42974152-45.79% | 19225638-21.17% |
4.2 基因组测序深度累积分布
以比对后得到的唯一比对序列为分析对象,分析其在参考基因组上的覆盖分布,统计基因组位点的深度信息,得到基因组上测序深度统计结果。
Fig 4-2-1 测序深度累积分布统计图![](image/help.png)
4.3 基因组测序深度分布
利用 deepTools
[2] 软件对转录起始位点(TSS)到转录终止位点(TES)区间,及基因上下游 2k 区间的所有 reads 进行统计,设置大小为 50bp 的窗口,计算每个窗口内的平均 reads 深度,并绘制出 reads 相对于基因特定位置的分布折线图。
Fig 4-3-1 测序深度分布图![](image/help.png)
4.4 测序饱和度分析
测序饱和度分析是用来衡量一个样品的测序量是否达到饱和的标准。随着测序量(reads数量)的增多,检测到的基因数也随之上升。当测序量达到某个值时,其检测到的基因数增长速度趋于平缓,说明检测到的基因数趋于饱和,如下图所示:
4.5 Reads在染色体上的分布
将唯一比对、去重复后的 reads 比对到基因组上各个染色体(分正负链)的密度进行统计。
Fig 4-5-1 reads在染色体上的分布图![](image/help.png)
广州基迪奥生物科技有限公司
6 Peak注释
利用 ChIPseeker
[4] R包,对 peak 相关基因进行注释。
6.1 Peak相关基因分析
根据peak在基因组上的区域信息及基因的注释信息,得到关于peak相关基因,从一定程度上表示了目的蛋白或特定组蛋白修饰可能调控的靶基因区域。
Tab 6-1-1 样本BhYABBY4-IP peak相关基因注释表(前10行)
peak_name | chr | start | end | length | abs_summit | pileup | fold_enrichment | -log10(pvalue) | -log10(qvalue) | annotation | geneChr | geneStart | geneEnd | geneLength | exonNumber | geneStrand | geneId | transcriptId | distToTSS | Symbol | Description | KEGG_A_class | KEGG_B_class | Pathway | K_ID | GO_Component | GO_Function | GO_Process |
BhYABBY4-IP_peak_9 | NC_052349.1 | 196319 | 196613 | 295 | 196392 | 28.00 | 3.04882 | 7.52962 | 4.67374 | Downstream (1-2kb) | NC_052349.1 | 198303 | 203622 | 5320 | 3 | - | ncbi_120074624 | XM_039027805.1 | 7230 | At2g33170 | XP_008438405.1 PREDICTED: probable leucine-rich repeat receptor-like protein kinase At5g63930 [Cucumis melo] | - | - | - | - | - | GO:0004672//protein kinase activity;GO:0005515//protein binding;GO:0005524//ATP binding | GO:0006468//protein phosphorylation |
BhYABBY4-IP_peak_10 | NC_052349.1 | 203722 | 203942 | 221 | 203836 | 19.00 | 3.52688 | 6.91918 | 4.17848 | Promoter (<=1kb) | NC_052349.1 | 198303 | 203622 | 5320 | 3 | - | ncbi_120074624 | XM_039027805.1 | -214 | At2g33170 | XP_008438405.1 PREDICTED: probable leucine-rich repeat receptor-like protein kinase At5g63930 [Cucumis melo] | - | - | - | - | - | GO:0004672//protein kinase activity;GO:0005515//protein binding;GO:0005524//ATP binding | GO:0006468//protein phosphorylation |
BhYABBY4-IP_peak_14 | NC_052349.1 | 218862 | 219164 | 303 | 218953 | 17.00 | 3.34893 | 6.05716 | 3.51753 | Promoter (1-2kb) | NC_052349.1 | 220913 | 225139 | 4227 | 10 | + | ncbi_120087383 | XM_039044359.1 | -1960 | PAM71-HL | XP_008438406.1 PREDICTED: GDT1-like protein 2, chloroplastic [Cucumis melo] | - | - | - | - | GO:0009512//cytochrome b6f complex | GO:0009055//electron carrier activity | - |
BhYABBY4-IP_peak_15 | NC_052349.1 | 266390 | 266629 | 240 | 266497 | 19.00 | 2.70859 | 4.90295 | 2.64288 | Promoter (<=1kb) | NC_052349.1 | 262016 | 266261 | 4246 | 5 | - | ncbi_120069147 | XM_039020829.1 | -236 | GLCAT14A | XP_022974530.1 beta-glucuronosyltransferase GlcAT14A [Cucurbita maxima] | - | - | - | - | GO:0016020//membrane | GO:0016757//transferase activity, transferring glycosyl groups | - |
BhYABBY4-IP_peak_16 | NC_052349.1 | 292375 | 292776 | 402 | 292508 | 23.00 | 3.96619 | 9.00803 | 5.84187 | Promoter (<=1kb) | NC_052349.1 | 284761 | 291768 | 7008 | 16 | - | ncbi_120073368 | XM_039026194.1 | -740 | SERINC3 | XP_008438413.1 PREDICTED: probable serine incorporator isoform X2 [Cucumis melo] | - | - | - | - | GO:0016020//membrane;GO:0016021//integral component of membrane | - | GO:0007155//cell adhesion;GO:0042246//tissue regeneration |
BhYABBY4-IP_peak_18 | NC_052349.1 | 364640 | 364844 | 205 | 364769 | 17.00 | 2.43773 | 3.91442 | 1.91067 | Downstream (1-2kb) | NC_052349.1 | 366375 | 367636 | 1262 | 2 | - | ncbi_120071386 | XM_039023646.1 | 2867 | PRP1 | XP_008438425.1 PREDICTED: probable glutathione S-transferase [Cucumis melo] | Metabolism;Metabolism | Global and overview maps;Metabolism of other amino acids | ko01100//Metabolic pathways;ko00480//Glutathione metabolism | K00799;K00799 | - | GO:0005515//protein binding;GO:0015035//protein disulfide oxidoreductase activity;GO:0016034//maleylacetoacetate isomerase activity | GO:0006559//L-phenylalanine catabolic process;GO:0006572//tyrosine catabolic process;GO:0006749//glutathione metabolic process;GO:0006790//sulfur compound metabolic process;GO:0042965//glutaredoxin biosynthetic process;GO:0045454//cell redox homeostasis;GO:0055114//oxidation-reduction process |
BhYABBY4-IP_peak_19 | NC_052349.1 | 368164 | 368537 | 374 | 368308 | 18.00 | 3.58193 | 6.80636 | 4.10294 | Promoter (<=1kb) | NC_052349.1 | 366375 | 367636 | 1262 | 2 | - | ncbi_120071386 | XM_039023646.1 | -672 | PRP1 | XP_008438425.1 PREDICTED: probable glutathione S-transferase [Cucumis melo] | Metabolism;Metabolism | Global and overview maps;Metabolism of other amino acids | ko01100//Metabolic pathways;ko00480//Glutathione metabolism | K00799;K00799 | - | GO:0005515//protein binding;GO:0015035//protein disulfide oxidoreductase activity;GO:0016034//maleylacetoacetate isomerase activity | GO:0006559//L-phenylalanine catabolic process;GO:0006572//tyrosine catabolic process;GO:0006749//glutathione metabolic process;GO:0006790//sulfur compound metabolic process;GO:0042965//glutaredoxin biosynthetic process;GO:0045454//cell redox homeostasis;GO:0055114//oxidation-reduction process |
BhYABBY4-IP_peak_20 | NC_052349.1 | 369350 | 369543 | 194 | 369459 | 15.00 | 2.87145 | 4.61135 | 2.41714 | Promoter (1-2kb) | NC_052349.1 | 366375 | 367636 | 1262 | 2 | - | ncbi_120071386 | XM_039023646.1 | -1823 | PRP1 | XP_008438425.1 PREDICTED: probable glutathione S-transferase [Cucumis melo] | Metabolism;Metabolism | Global and overview maps;Metabolism of other amino acids | ko01100//Metabolic pathways;ko00480//Glutathione metabolism | K00799;K00799 | - | GO:0005515//protein binding;GO:0015035//protein disulfide oxidoreductase activity;GO:0016034//maleylacetoacetate isomerase activity | GO:0006559//L-phenylalanine catabolic process;GO:0006572//tyrosine catabolic process;GO:0006749//glutathione metabolic process;GO:0006790//sulfur compound metabolic process;GO:0042965//glutaredoxin biosynthetic process;GO:0045454//cell redox homeostasis;GO:0055114//oxidation-reduction process |
BhYABBY4-IP_peak_26 | NC_052349.1 | 538974 | 539233 | 260 | 539084 | 18.00 | 3.11112 | 5.72195 | 3.25237 | Intron (XM_039046086.1/ncbi_120088661, intron 10 of 35) | NC_052349.1 | 519537 | 544395 | 24859 | 36 | - | ncbi_120088661 | XM_039046086.1 | 5311 | XI-B | XP_008438435.1 PREDICTED: myosin-6 isoform X1 [Cucumis melo] | - | - | - | - | GO:0016459//myosin complex | GO:0000155//phosphorelay sensor kinase activity;GO:0003774//motor activity;GO:0004672//protein kinase activity;GO:0005515//protein binding;GO:0005524//ATP binding | GO:0000160//phosphorelay signal transduction system;GO:0006109//regulation of carbohydrate metabolic process;GO:0007059//chromosome segregation;GO:0030261//chromosome condensation |
BhYABBY4-IP_peak_27 | NC_052349.1 | 553098 | 553606 | 509 | 553176 | 21.00 | 3.83668 | 8.15256 | 5.16841 | Downstream (<1kb) | NC_052349.1 | 553646 | 556699 | 3054 | 4 | - | ncbi_120084783 | XM_039040606.1 | 3523 | BAM1 | XP_008438436.1 PREDICTED: beta-amylase 1, chloroplastic-like [Cucumis melo] | Metabolism;Metabolism;Metabolism | Global and overview maps;Global and overview maps;Carbohydrate metabolism | ko01100//Metabolic pathways;ko01110//Biosynthesis of secondary metabolites;ko00500//Starch and sucrose metabolism | K01177;K01177;K01177 | GO:0009341//beta-galactosidase complex | GO:0004565//beta-galactosidase activity;GO:0016161//beta-amylase activity | GO:0000272//polysaccharide catabolic process;GO:0005975//carbohydrate metabolic process |
6.2 Peak在基因功能元件上的分布
利用参考基因组gtf数据库将与peak最相邻的基因(peak中心与基因的TTS距离最近)进行注释,统计peak在基因各功能区域的分布情况,按照promoter(转录起始位点上游2K序列范围)、5'UTR、3'UTR、Exon、Intron、Downstream(转录终止位点下游2K序列范围)、Intergenic(基因间区)的优先级顺序,确定peak与各个功能区域的对应关系。
Tab 6-2-1 各样本peak在基因功能元件上的分布统计表
sample | peakCount | promoter | 5'UTR | 3'UTR | 1st_exon | other_exon | 1st_intron | ohter_intron | downstream | distal_intergenic |
BhYABBY4-IP | 40988 | 5836-14.24% | 106-0.26% | 260-0.63% | 41-0.10% | 106-0.26% | 1085-2.65% | 2534-6.18% | 2975-7.26% | 28045-68.42% |
![]() |
Fig 6-2-1 BhYABBY4-IP![](image/help.png) |
![]() |
Fig 6-2-2 BhYABBY4-IP |
![]() |
|
![]() |
Fig 6-2-3 各样本peak在基因功能元件上的分布比例图 |
|
Fig 6-2-4 各样本peak相对TSS距离分布比例图 |
|
|
|
6.3 Peak在染色体上的分布
![]() |
Fig 6-3-1 BhYABBY4-IP |
6.4 peak相关基因 GO富集分析![](image/help.png)
Gene Ontology(简称GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表(controlled vocabulary)来全面描述生物体中基因和基因产物的属性。GO总共有三个ontology(本体),分别描述基因的分子功能(molecular function)、细胞组分(cellular component)、参与的生物过程(biological process)。GO的基本单位是term(词条、节点),每个term都对应一个属性。 GO功能分析一方面给出基因的GO功能分类注释;另一方面给出基因的GO功能显著性富集分析。 首先,我们将基因向GO数据库(http://www.geneontology.org/)的各term映射,并计算每个term的基因数,从而得到具有某个GO功能的基因列表及基因数目统计。然后应用超几何检验,找出与整个基因组背景相比,在基因中显著富集的GO条目。
GO富集圈图:(第一圈:富集前20的GOterm,圈外为基因数目的坐标尺。不同的颜色代表不同的Ontology;
第二圈:背景基因中该GOterm的数目以及Q值。基因越多条形越长,Q值越小颜色越红;
第三圈:该GOterm差异基因数量
第四圈:各GOterm的RichFactor值(该GOterm中差异数量除以所有数量),背景网格线,每一格代表0.1)
GO 富集分类柱状图:(横坐标为二级GOterm,纵坐标为该term里的基因数量,不同颜色表色不同类型GOterm)
GO富集气泡图:(利用Q值最小的前20个GOterm来作图,纵坐标为GOterm,横坐标为富集因子(该GOterm中差异数量除以所有数量),大小表示数量多少,颜色越红Q值越小)");
- BhYABBY4-IP.C 气泡图
- BhYABBY4-IP.F 气泡图
- BhYABBY4-IP.P 气泡图
GO富集条形图:(利用Q值最小的前20个GOterm来作图,纵坐标为GOterm,横坐标为该GOterm数目占所有差异数目的百分比,颜色越深Q值越小,柱子上的数值为该GOterm数量及Q值");
- BhYABBY4-IP.C 富集柱形图
- BhYABBY4-IP.F 富集柱形图
- BhYABBY4-IP.P 富集柱形图
6.5 peak相关基因 KO富集分析![](image/help.png)
在生物体内,不同基因相互协调行使其生物学,基于Pathway的分析有助于更进一步了解基因的生物学功能。KEGG是有关Pathway的主要公共数据库。 Pathway显著性富集分析以KEGG Pathway为单位,应用超几何检验,找出与整个基因组背景相比,在基因中显著性富集的Pathway。通过Pathway显著性富集能确定基因参与的最主要生化代谢途径和信号转导途径。
KO富集圈图:(第一圈:富集前20的pathway,圈外为基因数目的坐标尺。不同的颜色代表不同的A class;
第二圈:背景基因中该pathway的数目以及Q值。基因越多条形越长,Q值越小颜色越红;
第三圈:该pathway差异基因数量
第四圈:各pathway的RichFactor值(该pathway中差异数量除以所有数量),背景网格线,每一格代表0.1)
KO富集气泡图:(利用Q值最小的前20个pathway来作图,纵坐标为pathway,横坐标为富集因子(该pathway中差异数量除以所有数量),大小表示数量多少,颜色越红Q值越小)");
KO富集条形图:(利用Q值最小的前20个pathway来作图,纵坐标为pathway,横坐标为该pathway数目占所有差异数目的百分比,颜色越深Q值越小,柱子上的数值为该pathway数量及Q值");
6.6 Peak以及周边基因结构的可视化
Integrative Genomics Viewer(IGV)是一种高性能的可视化工具,用于基因组中各类数据的整合可视化,可选择全基因组、染色体甚至是单个碱基水平进行浏览,并且能显示其他注释信息。我们提供reads在每条染色体比对结果的bigwig文件,可以使用IGV将结果进行可视化。
![]() |
Fig 6-6-1 基因结构可视化 |
广州基迪奥生物科技有限公司
7 Motif分析
转录因子(Transcription Factors, TFs)是指能够以序列特异性方式结合 DNA 并且调节转录的蛋白质,TFs 通过识别特定的 DNA 序列来控制染色质和转录,以形成指导基因组表达的复杂系统。利用 MEME Suite(http://meme-suite.org/)进行 Motif 分析。
7.1 motif检测![](image/help.png)
我们利用 MEME Suite
[5] 中的 MEME-chip 检测 peak 序列中显著 motif 序列。MEME-chip 整合了 MEME(检测8-15bp)与 Dreme(检测3-8bp)功能,可同时检测长 motif 和短 motif 。
Fig 7-1-1 meme 显著motif序列图
不同颜色代表不同碱基类型,字母的高度代表这个碱基的保守性(字母越高,其在整个位点的频率越高,越保守)。
Fig 7-1-2 dreme 显著motif序列图
不同颜色代表不同碱基类型,字母的高度代表这个碱基的保守性(字母越高,其在整个位点的频率越高,越保守)。
7.2 各motif到peak顶点(submit)的距离统计
DAP-seq通常会检测到多个显著的motif,但理论上其中只有一个为转录因子的结合位点序列。转录因子结合位点序列理论上应该与peak的顶点重叠,即motif与peak顶点的距离应该趋近于0。通过统计各个motif与peak的顶点的距离,将有利于帮助我们判断哪个motif最有可能为转录因子的结合位点。
我们利用 MEME Suite
[5] 中的 fimo 确定 MEME-chip 结果中显著性 Top5 的 motif 在各序列中的位置。
Tab 7-2-1 样本BhYABBY4-IP motif位置统计表(前10行)
motif_id | motif_alt_id | sequence_name | start | stop | strand | score | p-value | q-value | matched_sequence | distToSummit | peak_name | chr | start | end | length | abs_summit | pileup | fold_enrichment | -log10(pvalue) | -log10(qvalue) | annotation | geneChr | geneStart | geneEnd | geneLength | exonNumber | geneStrand | geneId | transcriptId | distToTSS |
TTTHTYTTYTTYTTT | MEME-1 | NC_052359.1 | 15217347 | 15217361 | - | 20.5758 | 1.04e-09 | 0.00373 | TTTCTCTCCTTCTTT | 60 | BhYABBY4-IP_peak_32139 | NC_052359.1 | 15217169 | 15217449 | 281 | 15217287 | 22.00 | 3.92429 | 8.63179 | 5.54727 | Distal Intergenic | NC_052359.1 | 15232799 | 15236790 | 3992 | 2 | + | ncbi_120091818 | XM_039049959.1 | -15512 |
TTTHTYTTYTTYTTT | MEME-1 | NC_052352.1 | 34319336 | 34319350 | - | 20.1667 | 1.3e-09 | 0.00373 | TTTCTCTCCTTCTCT | 157 | BhYABBY4-IP_peak_11996 | NC_052352.1 | 34319123 | 34319600 | 478 | 34319179 | 18.00 | 2.57316 | 4.39809 | 2.26593 | Distal Intergenic | NC_052352.1 | 34339407 | 34345580 | 6174 | 8 | - | ncbi_120075660 | XM_039029254.1 | 26401 |
TTTHTYTTYTTYTTT | MEME-1 | NC_052356.1 | 76614 | 76628 | + | 19.6818 | 5.74e-09 | 0.00373 | tttctcttcttcttt | 37 | BhYABBY4-IP_peak_21344 | NC_052356.1 | 76462 | 76749 | 288 | 76577 | 17.00 | 3.55389 | 6.50583 | 3.85688 | Distal Intergenic | NC_052356.1 | 92196 | 92720 | 525 | 1 | - | ncbi_120083073 | XM_039038607.1 | 16143 |
TTTHTYTTYTTYTTT | MEME-1 | NW_024064913.1 | 150136 | 150150 | - | 19.6818 | 5.74e-09 | 0.00373 | TTTCTCTTCTTCTTT | -40 | BhYABBY4-IP_peak_40408 | NW_024064913.1 | 149827 | 150295 | 469 | 150190 | 21.00 | 4.55454 | 9.80462 | 6.49649 | Distal Intergenic | NW_024064913.1 | 179385 | 179711 | 327 | 1 | - | ncbi_120069666 | XM_039021448.1 | 29521 |
TTTHTYTTYTTYTTT | MEME-1 | NW_024064891.1 | 864986 | 865000 | + | 19.6818 | 5.74e-09 | 0.00373 | tttctcttcttcttt | -3 | BhYABBY4-IP_peak_40314 | NW_024064891.1 | 864938 | 865104 | 167 | 865003 | 20.00 | 3.99548 | 8.25544 | 5.23524 | Distal Intergenic | NW_024064891.1 | 838114 | 838755 | 642 | 1 | + | ncbi_120069592 | XM_039021382.1 | 26889 |
TTTHTYTTYTTYTTT | MEME-1 | NC_052352.1 | 9076907 | 9076921 | - | 19.6818 | 5.74e-09 | 0.00373 | TTTCTCTTCTTCTTT | -39 | BhYABBY4-IP_peak_10881 | NC_052352.1 | 9076884 | 9077341 | 458 | 9076960 | 22.00 | 3.99634 | 8.80778 | 5.70189 | Downstream (1-2kb) | NC_052352.1 | 9070948 | 9074161 | 3214 | 7 | - | ncbi_120075543 | XM_039029029.1 | -2799 |
TTTHTYTTYTTYTTT | MEME-1 | NC_052360.1 | 9590904 | 9590918 | + | 19.6818 | 5.74e-09 | 0.00373 | tttctcttcttcttt | -70 | BhYABBY4-IP_peak_35832 | NC_052360.1 | 9590880 | 9591139 | 260 | 9590988 | 24.00 | 4.02371 | 9.43092 | 6.20417 | Distal Intergenic | NC_052360.1 | 9651548 | 9654429 | 2882 | 4 | + | ncbi_120068030 | XM_039019699.1 | -60560 |
TTTHTYTTYTTYTTT | MEME-1 | NC_052355.1 | 15531369 | 15531383 | + | 19.6818 | 5.74e-09 | 0.00373 | tttctcttcttcttt | 209 | BhYABBY4-IP_peak_19442 | NC_052355.1 | 15531088 | 15531495 | 408 | 15531160 | 19.00 | 4.15084 | 8.32077 | 5.28090 | Distal Intergenic | NC_052355.1 | 15434885 | 15440791 | 5907 | 10 | - | ncbi_120080991 | XM_039035674.1 | -90369 |
TTTHTYTTYTTYTTT | MEME-1 | NC_052360.1 | 26716914 | 26716928 | - | 19.6818 | 5.74e-09 | 0.00373 | TTTCTCTTCTTCTTT | -3 | BhYABBY4-IP_peak_36639 | NC_052360.1 | 26716599 | 26716942 | 344 | 26716931 | 18.00 | 2.30720 | 3.70869 | 1.76631 | Distal Intergenic | NC_052360.1 | 26729291 | 26732221 | 2931 | 1 | + | ncbi_120092882 | XM_039051125.1 | -12360 |
TTTHTYTTYTTYTTT | MEME-1 | NC_052356.1 | 29817365 | 29817379 | - | 19.6818 | 5.74e-09 | 0.00373 | TTTCTCTTCTTCTTT | 0 | BhYABBY4-IP_peak_22653 | NC_052356.1 | 29817225 | 29817445 | 221 | 29817365 | 27.00 | 5.79669 | 14.75579 | 10.73444 | Distal Intergenic | NC_052356.1 | 29791416 | 29793341 | 1926 | 2 | - | ncbi_120083489 | XR_005483436.1 | -24024 |
Fig 7-2-1 motif与peak距离的频率直方图
7.3 motif注释
我们利用 MEME-chip (地址:http://meme-suite.org/) 软件中的 Tomtom 模块将得到的 motif 序列与已知 motif 数据库进行比对,利用已知 motif 来注释检测到的 motif 。
广州基迪奥生物科技有限公司
8 目录结构
upload
├── 1.data_access 过滤统计目录
│ ├── all.read.stat.xls 过滤信息统计表
│ ├── all.data.stat.xls 过滤前后碱基信息统计表
│ ├── all.count.{png,pdf} 样本过滤分析频数图
│ ├── all.fill.{png,pdf} 样本过滤分析比例图
│ ├── *.old.png 各样品过滤前各项统计图
│ └── *.new.png 各样品过滤后各项统计图
├── 2.alignment 比对统计结果
│ ├── sample.alignstat.xls 各样品比对参考基因组统计结果
│ ├── *.cov.{png,pdf} 测序深度累积分布统计图
│ ├── *.tss_tes.{png,pdf} 测序深度分布图
│ ├── *.saturation.{png,pdf} 测序饱和度分布图
│ └── *.chr.{png,svg} reads在染色体上的分布图
├── 3.peak_analysis Peak分析结果
│ ├── sample.peakstat.xls 各样本 peak 数目统计表
│ ├── *.peak.len.{png,pdf} Peak长度分布
│ ├── *.peak.dep.{png,pdf} Peak深度分布
│ ├── *.peak.fe.{png,pdf} Peak富集倍数分布
│ └── *.peak.pv.{png,pdf} Peak置信程度分布
├── 4.peak_annotation Peak注释
│ ├── all.annostat.xls peak在基因功能元件上的分布统计表
│ ├── all.peakanno.bar.{png,pdf} peak在基因功能元件上的分布饼图
│ ├── all.peakanno.distToTSS.{png,pdf} peak相对TSS距离分布比例图
│ ├── *.final.anno.xls peak相关基因注释表
│ ├── *.peakanno.bar.{png,pdf} peak在基因功能元件上的分布比例图
│ ├── *.peakanno.pie.{png,pdf} peak在基因功能元件上的分布饼状图
│ ├── *.peakanno.cov.{png.pdf} peak在染色体上的分布图
│ ├── *.distToTss.{png,pdf} peak_summit相对基因位置分布图
│ └── enrich 富集结果目录
├── 5.motif Motif分析结果
│ ├── meme-chip 样本meme-chip结果目录
│ │ └── meme-chip.html 样本meme-chip网页报告
│ └── fimo 样本fimo结果目录
│ ├── fimo.html 样本fimo网页报告
│ ├── *.motif.dist.png 样本motif距离peakSummit分布图
│ └── *.motif_anno.xls 样本motif基因注释表
├── src 结果报告内容
│ ├── content.html 结果报告内容
│ ├── css 结题报告css脚本
│ ├── js 结题报告js脚本
│ ├── doc 结题报告说明文档
│ └── image 结题报告图片
└── index.html 网页版结题报告
广州基迪奥生物科技有限公司
9 参考文献
- [1] Langmead B, Salzberg S L. Fast gapped-read alignment with Bowtie 2[J]. Nature methods, 2012, 9(4): 357. 返回
- [2] Fidel Ramírez, Ryan D P , Björn Grüning, et al. Deeptools2: A next generation web server for deep-sequencing data analysis[J]. Nucleic Acids Research, 2016, 44(Web Server issue):gkw257. 返回
- [3] Zhang Y, Liu T, Meyer CA, et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biology, 2008, 9: R137 返回
- [4] Yu G, Wang L G, He Q Y. ChIPseeker: an R/Bioconductor package for ChIP peak annotation, comparison and visualization[J]. Bioinformatics, 2015, 31(14): 2382-2383. 返回
- [5] MEME suit : http://meme-suite.org/ 返回
广州基迪奥生物科技有限公司
10 附录
10.1 分析方法英文文档
10.2 结果文件查看
*.xls,*.txt :结果数据表格文件,文件以制表符(Tab)分隔。unix/Linux/Mac用户使用 less 或 more 命令查看;windows用户使用高级文本编辑器Notepad++ 等查看,也可以用Microsoft Excel打开。
*.png:结果图像文件,位图,无损压缩。
*.pdf:结果图像文件,矢量图,可以放大和缩小而不失真,方便用户查看和编辑处理,可使用Adobe Illustrator进行图片编辑,用于文章发表等。
10.3 文章引用与致谢
如果您的研究课题使用了基迪奥的测序和分析服务,我们期望您在论文发表时,在Method部分或Acknowledgements部分引用或提及基迪奥公司。以下语句可供参考:
- Method部分:The cDNA/DNA/Small RNA libraries were sequenced on the Illumina sequencing platform by Genedenovo Biotechnology Co., Ltd (Guangzhou, China).
- Acknowledgements部分:We are grateful to/thank Guangzhou Genedenovo Biotechnology Co., Ltd for assisting in sequencing and/or bioinformatics analysis.
广州基迪奥生物科技有限公司