일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- Bioinformatics
- drug muggers
- CSS
- pandas
- single cell
- scRNAseq analysis
- DataFrame
- drug development
- 싱글셀 분석
- EdgeR
- ngs
- js
- python matplotlib
- MACS2
- single cell rnaseq
- julia
- Git
- PYTHON
- 비타민 C
- CUT&RUN
- single cell analysis
- Batch effect
- matplotlib
- scRNAseq
- javascript
- CUTandRUN
- HTML
- cellranger
- ChIPseq
- github
- Today
- Total
바이오 대표
[Bioinformatics 논문] Genotype and SNP calling from next-generation sequencing data 본문
[Bioinformatics 논문] Genotype and SNP calling from next-generation sequencing data
바이오 대표 2022. 10. 2. 16:25
"Genotype and SNP calling from next-generation sequencing data"
May, 2014
Abstract
genetics, genomics 연구들로부터 얻은 방대한 NGS 데이터를 이용한 분석은 정확한 SNPs calling 과 genotypes에 크게 의존한다. 최근에 개발된 통계방법은 불확실한 genotype calling을 수치화하고 향상시켰다. 그리고 이는 계속 늘어나고있는 low-to medium coverage 데이터를 이용한 연구에 특히 도움이 될 것이다. 논문은 이 방법들을 리뷰하고, NGS 스터디에서의 사용법을 제공한다.
NGS 방법은 낮은 가격에 믿을만한 large scale DNA sequencing 을 제공한다. 해당 sequencing 을 이용하여 1. de novo sequencing, 2. disease mapping, 3. RNA sequencing 을 통한 발현량 4.개체군 유전자 연구등을 할 수 있다.
보통 NGS 분석은 Aligned the fragments to the reference or assembled을 이용하여
[1] SNP calling -> variable sites
[2] genotype (유전자형)
이 두가지를 이용해서 downstream analysis:(are mutation 찾기, allele frequencies 평가하기, association mapping 하기) 를 하기에 중요하다.
NGS 문제점:
[1] errors in base-calling or alignment errors
[2] low-coverage sequencing (<5x on average) - only one chromosome (out of two) might be sampled at a specific site
SNP calling 과 genotype 관련 불확실성을 줄이기 위한 방법로는 target 부분은 deeply (>20x coverage) 하는 방법이 있다. 하지만 앞으로 수년간 medium (5~20x) 과 low-covergae sequencing 사용이 가장 보편적이고 cost-effective 한 연구디자인이 될 것이다. 예를 들자면, 1000 genome project는 176명 개개인의 genome wide를 대략 3x coverage sequeucing 을 이용하였다. 해당 실험은 적은 사람수로 deeper sequencing하는 것보다 더 cost-effective 하다. 비슷한 맥락으로 association studies 를 하는데 mapping powers은 적은 사람수, hith depth 보다, 많은 사람수 at low depth를 이용할때 극대화된다.
혹은 더 정교한 algorithms 를 이용하는 방법도있다. 예시-genotype likelihoods: error와 사전 지식(allele frequencies, patterns of linkage disequilibrium)을 결합하는 것이다. => SNP, genotype call with uncertainty measure(quality score