일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 싱글셀 분석
- drug muggers
- Bioinformatics
- github
- scRNAseq analysis
- ngs
- ChIPseq
- PYTHON
- 비타민 C
- single cell
- matplotlib
- javascript
- Git
- CSS
- MACS2
- HTML
- EdgeR
- cellranger
- CUT&RUN
- js
- DataFrame
- CUTandRUN
- pandas
- single cell analysis
- python matplotlib
- julia
- single cell rnaseq
- drug development
- scRNAseq
- Batch effect
- Today
- Total
바이오 대표
[ MHC genotyping Tools Benchmarking ] Benchmarking of NGS-based MHC-II genotyping algorithms 본문
[ MHC genotyping Tools Benchmarking ] Benchmarking of NGS-based MHC-II genotyping algorithms
바이오 대표 2022. 1. 22. 17:51
해당 프로젝트는 MHC-II 를 genotyping 하는 11개의 Tools/algorithms 을 benchmarking 하는 것이다. 그 과정에서 Version difference, input data type, annoation method 등과 같은 많은 문제들을 debugging하였다. 또한 중복 노동을 줄이기 위하여 bash를 이용한 autopipelines을 만들었다. Benchmarking에서만 끝낸것이 아니라 모든 결과들을 통합해 metaclassicier 을 이용해 2% accuracy improvement를 해냈다.
(해당 프로젝트는 1000G, TCGA 에서의 WES, WGS, RNA-seq 데이터를 R, python, linux, bash 를 이용하여 진행하였다. )
Abstract
Motivation:
몸속에 Tumour cells 가 생기면 많은 mutation을 불러일으키고, 이는 neo-antigens 을 생성한다. *Neo-antigens (or small peptide) 은 MHC complex에 의해 세포 겉면에 present된다. Neo-antigen은 Tumor cell의 MHC-I 에 직접적으로 present 할 수 있거나, antigen-presenting cells에서 MHC-II 에 present 될 수도 있다고 흔이 알려져 있다. 하지만 최근 연구로 특정 Tumor cells도 MHC-II를 발견할 수 있음을 발견했다. 이를 이용하여 우리의 면역시스템이 tumor을 발견할수 있는 확률을 높인다. 아직 이런 MHC-II를 genotyping 할 수 있는 확실히 가장 좋은 방법이 없기 때문에, 이번 프로젝트를 통해 WES, WGS 그리고 RNA-seq data를 input 으로 11개의 in siloco tools 을 비교하였다. 비교 방법으로 1)gold standard dataset 과 비교하는 direct 방법 2) population frequency 정보를 이용한 indirect 방법 두가지를 실험을 하였다. 마지막으로 Benchmarking으로 나온 값들을 이용하여 보다 더 정확도를 높일 수 있는 metaclassifier을 개발했다.
* Neo-antigen (신생항원): tumor cells에서 mutation 때문에 발현되는 tumor-specific antigens 이다.
Result:
Directly, WGS 와 WES 를 이용한 MHC-II genotyping 에서는 HLA-HD, HLA*LA, PHLAT and xHLA 가 정확도가 높았고 RNA-seq을 이용했을때는 arcasHLA와 PHLAT 에서 정확도가 가장 높았다. Indirectly, Caucasian 과 African Ameciran 인구중에서는 xHLA (WES) , PHLAT & arcasHLA (RNA-seq) 이 결과가 좋았다.
Introduction
1.1 MHC (Major Histocompatibility Complex)
MHC 는 self / foreign 프로틴을 인식하는 면역 시스템 중 하나이다. 해당 복합체 (comple)는 Chromosome 6에 위치해있으며 크게 두가지 타입으로 나뉜다. [1] MHC class I (MHC-I) [2] MHC class II (MHC-II). MHC-I 는 모든 핵 세포에서 찾을 수 있고, endogenous antigens을 세포 표면에 present 한다. 해당 antigen은 cytotoxic CD8+ T cell 에 의해 인식되고 만약 neo-antigen이면 세포 파괴를 유도한다. 이와 다르게 MHC-II 는 exogenous antigens 을 present 하고 이는 CD4+ helper T cells 에 의해 인식되어 항체 생성을 유도한다.
MHC 는 polymorphic 으로 엄청나게 다양한 peptides를 present 할수 있도록 한다. 대표적인 MHC-I의 클래스로는 *HLA-A, HLA-B, HLA-C가 있고 MHC-II 에는 HLA-DP, HLA-DQ, HLA-DR 이 있다. 이러한 allelic 다양성을 표현하기위해, 2~8 digits로 Locus를 표현한다.
* HLA (Human Leukocyte Antigen) ~ Human MHC
( 이렇게 digit으로 표시하는 방법 말고 peptide binding domain 을 이용한 nomenclature도 있는데, 만약 peptide binding region이 같은 sequence 이면 같은 G-group으로 구분되고 이는 HLA Allele에서 가장 의미있는 clinical 정보로 여겨진다. )
1.2 Role of MHC-II in tumor cell recognition
MHC-II 를 이용해서 anti-tomor 반응을 일으키는 pathway 는 총 두가지가 있다. 하나, antigen presenting cells이 exogenous tumor antigens을 present 하거나 둘, tumor Cell 에 직접 present 하는 것이다. Present 된 Peptide가 CD4+ T helper cell 과 만나거나 결합할때 그 이후의 면역 반응을 일으키다.
1.3 NGS-based typing strategies
Genotyping을 하는 방법 또한 두가지로 나눌수 있다 [1] Alignment [2] Assembly-based. Alignment 방법은 알려져있는 HLY types 의 reference sequence DB를 이용하여 맵핑하는 것이다. Assembl-based 방법은 또 두가지로 나뉠 수 있는데 하나는 일단 alignment 후, mapping 되지 않은 부분을 assembly 하는것이고 다른 하나는 de novo assembly 으로 contigs 를 만들고 이를 aligning 하는 것이다. 당연히 이론상으로는 assembly-based method 가 더 강력한 친구이다. Reference (gold standard) sequence 로는 International ImMunoGenetics information system (IMGT) 중 Immuno Polymorphism Dabase (IPD) 를 이용하였다.
1.4 Problem Statements
PCR 을 이용한 gold standard dataset 은 정확하지만 가격이 비싸다. 이를 대체 할 수 있는 것이 computational tools 이고 해당 프로젝트는 이러한 tools 들을 비교한다.
( 각각의 Tools 들은 Input Data, genotyping method, supported HLA loci, IMGT version 등이 다 다르기 때문에 고려하여 실험을 진행하였다.)
Method
2.1 Tool Selection
공개되어 있는 MHC-II genotyping tool 들중에서 MCH-II 를 최소 4-digit resolution을 하고, 무료로 이용할 수 있는 Tool들을 이용하였다. 그 중 문제없이 실행되는 tools은 11개였다.
2.2 Benchmark Environment
Linux server running Ubuntu 20.04.2, kernel version 5.4.0, with 4 Intel® Xeon® Gold 6240 resulting in a maximum of 144 parallel threads. Maximal available random access memory 384GB
* 코드를 parallel 로 돌리는데에는 컴공과 팀 멤버가 힘썼다.
2.3 Resource Consumption
각각 tool이 CPU 나 메모리사용량이 어떻게 되는지 알아보기위해, 20개의 sample을 이용해서 benchmarking을 하였다.
2.4 Data Coverage
평균 coverage 값을 구하기 위해서 WES 와 WGS 데이터는 mosdepth 를 이용하였다.
*mosdepth: Bam 파일의 depth coverage 를 계산할 때 사용하는 프로그램
2.5 Direct Benchmark
2.5.1 Gold Standard Data
정확도를 위해 PCR based 방법으로 만들어진 데이터들을 사용하였다. PCR-SSOP (PCR w/ sequence-specific oligonucleotide probes), PCR-SBT (sequencing-based typing, Sanger sequencing) 을 이용한