바이오 대표

[ Bioinformatics 논문 ] PacBio Sequencing and Its Applications 본문

논문

[ Bioinformatics 논문 ] PacBio Sequencing and Its Applications

바이오 대표 2022. 7. 20. 00:04

 

" PacBio Sequencing and Its Applications " 

요새 제일 핫한 long-read PacBio sequencing 에 관한 논문이다. 

 

Abstract 

Pacific Bioscience가 발명한 단일분자 (Single-molecule) 실시간 (real-time) sequencing 은 second-generationg sequencing 보다 더 긴 read lengths 를 제공함으로써, genomes, transcriptome* 그리고 epigenetics* research에서의 풀지 못한 문제들에 사용 된다. PacBio sequencing 을 이용한 de novo assmbiles는 현존하는 reference assemblies의 빈 부분을 채울 수 있고, structural variations*의 특징을 나타낼 수 있다. long reads* 를 이용해서, 긴 repetitive regions을 squence 할 수 있고, 질병과 크게 관련이 있을 법한 돌연변이 (mutation)을 발견할 수 있다.  또한 PacBio transcriptome sequencing은 gene isoforms*을 알아내는데 도움이 된다. 한번에 필요한 길이 이상을 sequence 할 수 있기에, 새로운 genes, 혹은 알고있는 gene의 새로운 isoforms 을 알아 낼 수 있도록 해준다. 또한, PacBio's 시퀀싱 기술은 methylation과 같이 base modification 을 직접적으로 알아낼 수 있다. PacBio 시퀀싱을 단독으로 사용하기보단, 많은 hybrid sequencing 함께 이용하는 전략들이 개발되었다. PacBio의 long reads와 짧지만 더 정확한 short reads를 합치는 전략이다. PacBio sequencing 을 이용함으로써, 더 큰 규모의 실험과, SGS 만으로는 알아낼 수 없는 정보를 얻을 수 있게 해주었다. 

 

* transcriptome: coding and non-coding RNAs

* epigenetics: 후성적 

* structural variations:  1kb 이상의 DNA region include inversion, insertions or deletions, copy number variants 

* long reads: 한번에 연속으로 알아낸 sequence 가 길다는 뜻 

* isoform: 같은 locus에서 생성된 mRNAs지만 gene function이 다른 것 (alternative splicing 같은 이유로 인해) 

 

 

Mechanism and performance

PacBio sequencing 은 target DNA molecule이 replication 하는 동안 서열 정보를 알아낸다. Template은 SMRTbell (Fig 1) 이라고 불리는 closed, single-stranded circular DNA 이다. 이는 hiarpin adptor들을 target dsDNA에 붙여 만들어졌다. 

Fig 1. SMRTbell Template: 초록 hairpin adoptors이 target dsDNA(노랑,보라) 끝에 각각 붙어서 closed circle을 형성한다. Polymerase (회색)은 ZMW 바닥에 붙어있고, 오렌지 색은 읽은 strand를 나타난다.

SMRTbell 샘플을 SMRT cell (Fig 2) 이라 불리는 chip에 넣으면, SMRTbell이 zero-mode waveguide (ZMW) 라고 불리는 sequencing unit에 흩어진다. 각각의 ZMW에서 하나의 polymerase가 바닥에 고정되어 있고 이는 SMRTbell의 hairpin adaptor가 붙어 replication을 시작할 수 있도록 만들어졌다 (Fig 3). 4개의 fluorescen가 라벨되어있는 nucleotides가 SMRT cell에 넣어지고 특정 emssion spectrums를 만들어낸다. 이러한 Light pulse가 영상처럼 반복되면서 기록되고, 각 pulse로 base를 해석할 수 있다. 가장 최근 Platform 인 PacBio RS II는 대랻 0.5~4시간 분량의 영상을 만들어낸다. Replicate 되는 template 이 closed circle 이기에, 한쪽 strand 가 복제되도 계속해서 반대 strand를 복제한다. polymeraser가 소명을 다할때까지 반복될 수 있고 양쪽 strand를 다 복제하면 1 pass라고 칭한다. 이 때에는, continuous long read 가 adaptor sequences 에서 잘릴수도 있다. 이처럼 같은 sequence의 multiple CLR로 부터 circuler consensus sequence (CSS) 를 얻을 수 있다. target sequence 가 짧아서 많은 CLR이 만들어진다면 CSS의 정확도는 올라간다. 반면에 target sequence 가 길다면 정확도가 떨어질 것이다. PacBio sequencing 은 실시간이고 light-pulse 의 변화로부터 kinetic variation을 해석하기에, methylation 과 같은 base modification도 분석할 수 있다. 

Fig 2. SMRT cell. 각 cell은 150,000개의 ZMW을 갖고 있다.
Fig 3. (A) ZMW 에 하나의 SMRTbell (회색) 이 붙어 있는 모습니다. (B) 4개의 nucleotide 가 다른 색으로 라벨되어있고 (G,C,T,A 가 빨강, 노랑, 초록, 파랑), 특정 nucleotide 가 합성되면 특정 emssion spectrum을 보인다.

 

PacBio sequencing 의 최대 장점은 long read length다. PacBio RS II (+C4 chemistry) 는 평균 10kb 이상의 Read lenghs 를 뽐내며, N50와는 20kb이상을 보이고, 최대 60kb까지 읽어낸다. (Fig 4) SGS 와 비교했을때 훨씬 더 긴 read length를 읽을 수 있는 PacBio sequencin은 보다 더 정확한위치, repetitive sequence 부분을 거의 해결할 수 있다.

Fig 4 PacBio RS II + P6-C4 chemistry 를 이용했을 때 얻을 수 있는 Read length distribution 이다.

하지만 SGS와 비교했을때, 단점도 있다. 하나의 SMRT cell 에는 150,000 개의 ZMW들이 있지만, DNA molecule이 polymerase와 결합하지 못하거나, 하나이상의 DNA molecule이 ZMW에 들어가게되는 것 때문에 오직 35,000-70,000개만 성공적으로 읽을 수 있다. 보통 PacBio RS II을 통해서 SMRT cell 당 5~10억개의 base를 읽어낼 수 있다. 또한, Illumina HiSeq 2500처럼 high throghput 을 제공하지는 못한다. 

 

또다른 단점은 continuous long reads의 에러가 꽤 높다는 것이다 (11~15%). 에러는 CLR에 랜덤하게 퍼져있기 때문에, circular consensus sequencing (CCS)을 통해서 에러비율을 줄일 수 있다. 15 coverage로 99%이상의 정확도를 낼 수 있다. 

# of coverage <--> CSS read length 가 trade off 관계.  

 

결론적으로 PacBio Sequencinㅎ은 very long reads 를 높은 에러와 low throughput로 읽어낸다. PacBio RS II + P6-C4. 다음 표는 다양한 Platform들을 비교한 것이다. 

 

 

Applications

# Applications to genome research 

De novo assembly

Problematic genomic regions

Characterization of structural variation

 

# Application to transcriptome research

transcript sequencing using Iso-Seq

Gene isoform identification using hybrid sequencing

Personal transciptomes

 

# Applications to epigenetics research 

methylation detection

 

 

Discussion