일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- matplotlib
- Git
- single cell rnaseq
- 싱글셀 분석
- github
- PYTHON
- HTML
- DataFrame
- drug development
- js
- Bioinformatics
- julia
- CUT&RUN
- scRNAseq analysis
- ngs
- 비타민 C
- MACS2
- single cell analysis
- Batch effect
- CUTandRUN
- CSS
- EdgeR
- scRNAseq
- ChIPseq
- drug muggers
- python matplotlib
- javascript
- single cell
- cellranger
- pandas
- Today
- Total
바이오 대표
[MACS2] Peak calling with MACS2 본문
MACS2(Model-based Analysis of ChiP-seq) for ChIP-seq or ATAC-seq
Peak Calling
= Chip-seq 실험에서 enriched aligned reads, genome area 를 찾는 것이다.
Chip-seq에서 나온 alignment files (SAM/BAM) 에서 sense(+) strand와 antisense(-) strand 에서의 read densities 가 다름을 확인할 수 있다. 5' ends를 통해 +/- strand를 구분할 수 있다. 통계학을 이용해 각 그룹들의 distribution을 평가하고, background와 비교하여 해당 enrichment site 가 정말 binding site 인지 확인할 수 있다.
peak calling 을 위해 가장 흔하게 사용되는 tool 이 MACS2이다.
MACS2
= Model-based Analysis of ChIP-seq
# Removingg Redundancy (중복 제거)
- auto option: binomal distribution을 전제로 같은 위치에서의 maximum tags 계산 with 1e-5 p-vale cutoff.
- all option: 모든 tag 이용
- integer: 원하는 특정 tag 개수 지정
# Modelling the shift size
- bimodal enrichment pattern (paired peaks) 이용
- model을 build 하기 위해서 paired peaks을 찾는데 이때, 주어진 bandwidth (sonication size)와 high-conflidence fold-enrichment (mfold)를 이용하여
MACS2 parameters
해당 글에서는 callpeak function에 초점을 둘 것이다. 더 많은 정보를 원한다면 mac2 COMMAND -h.
macs peakcalling <parameters>
주로 사용되는 parameters들은 다음과 같다.
# Input file options
- -t: the IP(immunoprecipitation 면역침강) data file - only required parameter
- -c: the control or mock data file
- -f: format of input file; Default 'AUTO' - MACS가 자동으로 format 결정
- -g: mappable/sequencible genome size; precomplied values 유효 genome 사이즈 (hs - human, mm - mouse,,,)
# Output arguments
- -- outdir: MACS가 모든 output files을 해당 옵션을 이용하면 specific folder 에 저장
- -n: output file 이름에 prefix 로 붙는 string
- -B/--bdg: fragment pileupd을 저장하고, bedGraph 파일에서 lambda, -log10 p value, -log10 q value scores를 컨트롤할 수 있다.
* pileup 이란? peack summit 할 때, How many fragments you can find covering the peack summit. -> 해당 value를 이용하여 weak peaks를 cut off 할 수 있다.
# Shifting model arguments
- -s: size of sequencing tags/reads; Default로 MACS는 input treatment file에서의 첫번째 10개 sequencs를 이용해서 결정한다.
- --bw: the bandwidth (sonication size) = genome ONLY model building
- --mfold: upper/lower limit for model building
# Peak calling arguments
- -q: q-value cutoff (minimun FDR)
- -p: p-value cutoff
- --nolambda: do not consider the local bias/lambda at peak candidate regions
- --broad: broad peak calling
MACS2 Output files
[1] narrowPeak:
[2] WIG format: to display of continuous-valued data in a track format
- line-oritented
- Two format options: variableStep / fixedStep
[3] BedGraph format: to display of continuous-valued data in track format
- display type: probability scores and trascriptome data
~ .wig
ref: https://hbctraining.github.io/Intro-to-ChIPseq/lessons/05_peak_calling_macs.html
'Bioinformatics' 카테고리의 다른 글
[ Bioinformatics ] VCF (variant call format) 파일 (0) | 2022.03.28 |
---|---|
[ samtools ] fastq --> bam (unaligned) (0) | 2022.01.22 |