바이오 대표

[Bioinformatics 논문] Genotype and SNP calling from next-generation sequencing data 본문

논문

[Bioinformatics 논문] Genotype and SNP calling from next-generation sequencing data

바이오 대표 2022. 10. 2. 16:25

 

"Genotype and SNP calling from next-generation sequencing data"

May, 2014

 

Abstract

genetics, genomics 연구들로부터 얻은 방대한 NGS 데이터를 이용한 분석은 정확한 SNPs calling 과 genotypes에 크게 의존한다. 최근에 개발된 통계방법은 불확실한 genotype calling을 수치화하고 향상시켰다. 그리고 이는 계속 늘어나고있는 low-to medium coverage 데이터를 이용한 연구에 특히 도움이 될 것이다. 논문은 이 방법들을 리뷰하고, NGS 스터디에서의 사용법을 제공한다. 

 

NGS 방법은 낮은 가격에 믿을만한 large scale DNA sequencing 을 제공한다. 해당 sequencing 을 이용하여 1. de novo sequencing, 2. disease mapping, 3. RNA sequencing 을 통한 발현량 4.개체군 유전자 연구등을 할 수 있다. 

 

보통 NGS 분석은 Aligned the fragments to the reference or assembled을 이용하여

[1] SNP calling -> variable sites

[2] genotype (유전자형) 

이 두가지를 이용해서 downstream analysis:(are mutation 찾기, allele frequencies 평가하기, association mapping 하기) 를 하기에 중요하다. 

 

NGS 문제점:

[1] errors in base-calling or alignment errors

[2] low-coverage sequencing (<5x on average) - only one chromosome (out of two) might be sampled at a specific site

 

SNP calling 과 genotype 관련 불확실성을 줄이기 위한 방법로는 target 부분은 deeply (>20x coverage) 하는 방법이 있다. 하지만 앞으로 수년간 medium (5~20x) 과 low-covergae sequencing 사용이 가장 보편적이고 cost-effective 한 연구디자인이 될 것이다. 예를 들자면, 1000 genome project는 176명 개개인의 genome wide를 대략 3x coverage sequeucing 을 이용하였다. 해당 실험은 적은 사람수로 deeper sequencing하는 것보다 더 cost-effective 하다. 비슷한 맥락으로 association studies 를 하는데 mapping powers은 적은 사람수, hith depth 보다, 많은 사람수 at low depth를 이용할때 극대화된다. 

혹은 더 정교한 algorithms 를 이용하는 방법도있다. 예시-genotype likelihoods: error와 사전 지식(allele frequencies, patterns of linkage disequilibrium)을 결합하는 것이다. => SNP, genotype call with uncertainty measure(quality score