바이오 대표

[ MHC genotyping Tools Benchmarking ] Benchmarking of NGS-based MHC-II genotyping algorithms 본문

My works

[ MHC genotyping Tools Benchmarking ] Benchmarking of NGS-based MHC-II genotyping algorithms

바이오 대표 2022. 1. 22. 17:51

 

해당 프로젝트는 MHC-II 를 genotyping 하는 11개의 Tools/algorithms 을 benchmarking 하는 것이다. 그 과정에서 Version difference, input data type, annoation method 등과 같은 많은 문제들을 debugging하였다. 또한 중복 노동을 줄이기 위하여 bash를 이용한 autopipelines을 만들었다. Benchmarking에서만 끝낸것이 아니라 모든 결과들을 통합해 metaclassicier 을 이용해 2% accuracy improvement를 해냈다. 

(해당 프로젝트는 1000G, TCGA 에서의 WES, WGS, RNA-seq 데이터를 R, python, linux, bash 를 이용하여 진행하였다. )

 

Abstract 

Motivation:

몸속에 Tumour cells 가 생기면 많은 mutation을 불러일으키고, 이는 neo-antigens 을 생성한다.  *Neo-antigens (or small peptide) 은 MHC complex에 의해 세포 겉면에 present된다. Neo-antigen은 Tumor cell의 MHC-I 에 직접적으로 present 할 수 있거나, antigen-presenting cells에서 MHC-II 에 present 될 수도 있다고 흔이 알려져 있다. 하지만  최근 연구로 특정 Tumor cells도 MHC-II를 발견할 수 있음을 발견했다. 이를 이용하여 우리의 면역시스템이 tumor을 발견할수 있는 확률을 높인다. 아직 이런 MHC-II를 genotyping 할 수 있는 확실히 가장 좋은 방법이 없기 때문에, 이번 프로젝트를 통해 WES, WGS 그리고 RNA-seq data를 input 으로 11개의 in siloco tools 을 비교하였다. 비교 방법으로 1)gold standard dataset 과 비교하는 direct 방법 2) population frequency 정보를 이용한 indirect 방법 두가지를 실험을 하였다. 마지막으로 Benchmarking으로 나온 값들을 이용하여 보다 더 정확도를 높일 수 있는 metaclassifier을 개발했다. 

* Neo-antigen (신생항원): tumor cells에서 mutation 때문에 발현되는 tumor-specific antigens 이다. 

 

Result:

Directly, WGS 와 WES 를 이용한 MHC-II genotyping 에서는 HLA-HD, HLA*LA, PHLAT and xHLA 가 정확도가 높았고 RNA-seq을 이용했을때는 arcasHLA와 PHLAT 에서 정확도가 가장 높았다. Indirectly, Caucasian 과 African Ameciran 인구중에서는 xHLA (WES) , PHLAT & arcasHLA (RNA-seq) 이 결과가 좋았다.

 

 

Introduction 

1.1 MHC (Major Histocompatibility Complex)

MHC 는  self / foreign 프로틴을 인식하는 면역 시스템 중 하나이다. 해당 복합체 (comple)는 Chromosome 6에 위치해있으며 크게 두가지 타입으로 나뉜다. [1] MHC class I (MHC-I)  [2] MHC class II (MHC-II). MHC-I 는 모든 핵 세포에서 찾을 수 있고,  endogenous antigens을 세포 표면에 present 한다. 해당 antigen은 cytotoxic CD8+ T cell 에 의해 인식되고 만약 neo-antigen이면 세포 파괴를 유도한다.  이와 다르게 MHC-II 는 exogenous antigens 을 present 하고 이는 CD4+ helper T cells 에 의해 인식되어 항체 생성을 유도한다. 

MHC 는 polymorphic  으로 엄청나게 다양한 peptides를 present 할수 있도록 한다. 대표적인 MHC-I의 클래스로는 *HLA-A, HLA-B, HLA-C가 있고 MHC-II 에는 HLA-DP, HLA-DQ, HLA-DR 이 있다.  이러한 allelic 다양성을 표현하기위해, 2~8 digits로 Locus를 표현한다.   

* HLA (Human Leukocyte Antigen) ~ Human MHC

allele groups (2 digits), protein sequences (4 digits), exon sequences (6 digits) and intron sequences (8 digits)

( 이렇게 digit으로 표시하는 방법 말고 peptide binding domain 을 이용한 nomenclature도 있는데, 만약 peptide binding region이 같은 sequence 이면 같은 G-group으로 구분되고 이는 HLA Allele에서 가장 의미있는 clinical 정보로 여겨진다. )

 

1.2 Role of MHC-II in tumor cell recognition 

MHC-II 를 이용해서 anti-tomor 반응을 일으키는 pathway 는 총 두가지가 있다. 하나, antigen presenting cells이 exogenous tumor antigens을 present 하거나 둘, tumor Cell 에 직접 present 하는 것이다. Present 된 Peptide가 CD4+ T helper cell 과 만나거나 결합할때 그 이후의 면역 반응을 일으키다.

 

1.3 NGS-based typing strategies

Genotyping을 하는 방법 또한 두가지로 나눌수 있다 [1] Alignment [2] Assembly-based. Alignment 방법은 알려져있는 HLY types 의 reference sequence DB를 이용하여 맵핑하는 것이다. Assembl-based 방법은 또 두가지로 나뉠 수 있는데 하나는 일단 alignment 후, mapping 되지 않은 부분을 assembly 하는것이고 다른 하나는 de novo assembly 으로 contigs 를 만들고 이를 aligning 하는 것이다. 당연히 이론상으로는 assembly-based method 가 더 강력한 친구이다. Reference (gold standard) sequence 로는 International ImMunoGenetics information system (IMGT) 중 Immuno Polymorphism Dabase (IPD) 를 이용하였다. 

 

1.4 Problem Statements

PCR 을 이용한 gold standard dataset 은 정확하지만 가격이 비싸다. 이를 대체 할 수 있는 것이 computational tools 이고 해당 프로젝트는 이러한 tools 들을 비교한다.  

( 각각의 Tools 들은 Input Data, genotyping method, supported HLA loci, IMGT version 등이 다 다르기 때문에 고려하여 실험을 진행하였다.) 

 

 

Method

2.1 Tool Selection

공개되어 있는 MHC-II genotyping tool 들중에서 MCH-II 를 최소 4-digit resolution을 하고, 무료로 이용할 수 있는 Tool들을 이용하였다.  그 중 문제없이 실행되는 tools은 11개였다. 

2.2 Benchmark Environment

Linux server running Ubuntu 20.04.2, kernel version 5.4.0, with 4 Intel® Xeon® Gold 6240 resulting in a maximum of 144 parallel threads. Maximal available random access memory 384GB

* 코드를 parallel 로 돌리는데에는 컴공과 팀 멤버가 힘썼다. 

 

2.3 Resource Consumption 

각각 tool이 CPU 나 메모리사용량이 어떻게 되는지 알아보기위해, 20개의 sample을 이용해서 benchmarking을 하였다. 

 

2.4 Data Coverage 

평균 coverage 값을 구하기 위해서 WES 와 WGS 데이터는 mosdepth 를 이용하였다. 

*mosdepth: Bam 파일의 depth coverage 를 계산할 때 사용하는 프로그램 

 

2.5 Direct Benchmark 

2.5.1 Gold Standard Data

정확도를 위해 PCR based 방법으로 만들어진 데이터들을 사용하였다. PCR-SSOP (PCR w/ sequence-specific oligonucleotide probes), PCR-SBT (sequencing-based typing, Sanger sequencing) 을 이용한