바이오 대표

[MACS2] Peak calling with MACS2 본문

Bioinformatics

[MACS2] Peak calling with MACS2

바이오 대표 2022. 10. 3. 14:56

 

MACS2(Model-based Analysis of ChiP-seq) for ChIP-seq or ATAC-seq

 

Peak Calling

= Chip-seq 실험에서 enriched aligned reads, genome area 를 찾는 것이다. 

 

 

Chip-seq에서 나온 alignment files (SAM/BAM) 에서 sense(+) strand와 antisense(-) strand 에서의 read densities 가 다름을 확인할 수 있다. 5' ends를 통해 +/- strand를 구분할 수 있다. 통계학을 이용해 각 그룹들의 distribution을 평가하고, background와 비교하여 해당 enrichment site 가 정말 binding site 인지 확인할 수 있다. 

Image source: Wilbanks and Faccioti, PLoS One 2010

peak calling 을 위해 가장 흔하게 사용되는 tool 이 MACS2이다.

 

 

 

MACS2 

= Model-based Analysis of ChIP-seq

# Removingg Redundancy (중복 제거) 

  • auto option: binomal distribution을 전제로 같은 위치에서의 maximum tags 계산 with 1e-5 p-vale cutoff. 
  • all option: 모든 tag 이용
  • integer: 원하는 특정 tag 개수 지정 

 

# Modelling the shift size 

- bimodal enrichment pattern (paired peaks) 이용

- model을 build 하기 위해서 paired peaks을 찾는데 이때, 주어진 bandwidth (sonication size)와 high-conflidence fold-enrichment (mfold)를 이용하여 

 

 

 

 

 

MACS2 parameters

 

해당 글에서는 callpeak function에 초점을 둘 것이다. 더 많은 정보를 원한다면 mac2 COMMAND -h.

macs peakcalling <parameters>

주로 사용되는 parameters들은 다음과 같다. 

 

# Input file options

  • -t: the IP(immunoprecipitation 면역침강) data file  - only required parameter
  • -c: the control or mock data file
  • -f: format of input file; Default 'AUTO' - MACS가 자동으로 format 결정
  • -g: mappable/sequencible genome size; precomplied values 유효 genome 사이즈 (hs - human, mm - mouse,,,)

 

# Output arguments 

  • -- outdir: MACS가 모든 output files을 해당 옵션을 이용하면 specific folder 에 저장
  • -n: output file 이름에 prefix 로 붙는 string
  • -B/--bdg: fragment pileupd을 저장하고, bedGraph 파일에서 lambda, -log10 p value, -log10 q value scores를 컨트롤할 수 있다.

* pileup 이란? peack summit 할 때, How many fragments you can find covering the peack summit. -> 해당 value를 이용하여 weak peaks를 cut off 할 수 있다. 

 

 

# Shifting model arguments

  • -s: size of sequencing tags/reads; Default로 MACS는 input treatment file에서의 첫번째 10개 sequencs를 이용해서 결정한다. 
  • --bw: the bandwidth (sonication size) = genome ONLY model building 
  • --mfold: upper/lower limit for model building 

 

# Peak calling arguments 

  • -q: q-value cutoff (minimun FDR)
  • -p: p-value cutoff
  • --nolambda: do not consider the local bias/lambda at peak candidate regions
  • --broad: broad peak calling 

 

 

 

MACS2 Output files

 

[1] narrowPeak:

 

[2] WIG format: to display of continuous-valued data in a track format

      - line-oritented

      - Two format options: variableStep / fixedStep

 

[3] BedGraph format: to display of continuous-valued data in track format

       - display type: probability scores and trascriptome data

       ~ .wig

 

 

 

ref: https://hbctraining.github.io/Intro-to-ChIPseq/lessons/05_peak_calling_macs.html 

 

'Bioinformatics' 카테고리의 다른 글

[ Bioinformatics ] VCF (variant call format) 파일  (0) 2022.03.28
[ samtools ] fastq --> bam (unaligned)  (0) 2022.01.22