[ Bioinformatics 논문 ] PacBio Sequencing and Its Applications
" PacBio Sequencing and Its Applications "
요새 제일 핫한 long-read PacBio sequencing 에 관한 논문이다.
Pacific Bioscience가 발명한 단일분자 (Single-molecule) 실시간 (real-time) sequencing 은 second-generationg sequencing 보다 더 긴 read lengths 를 제공함으로써, genomes, transcriptome* 그리고 epigenetics* research에서의 풀지 못한 문제들에 사용 된다. PacBio sequencing 을 이용한 de novo assmbiles는 현존하는 reference assemblies의 빈 부분을 채울 수 있고, structural variations*의 특징을 나타낼 수 있다. long reads* 를 이용해서, 긴 repetitive regions을 squence 할 수 있고, 질병과 크게 관련이 있을 법한 돌연변이 (mutation)을 발견할 수 있다. 또한 PacBio transcriptome sequencing은 gene isoforms*을 알아내는데 도움이 된다. 한번에 필요한 길이 이상을 sequence 할 수 있기에, 새로운 genes, 혹은 알고있는 gene의 새로운 isoforms 을 알아 낼 수 있도록 해준다. 또한, PacBio's 시퀀싱 기술은 methylation과 같이 base modification 을 직접적으로 알아낼 수 있다. PacBio 시퀀싱을 단독으로 사용하기보단, 많은 hybrid sequencing 함께 이용하는 전략들이 개발되었다. PacBio의 long reads와 짧지만 더 정확한 short reads를 합치는 전략이다. PacBio sequencing 을 이용함으로써, 더 큰 규모의 실험과, SGS 만으로는 알아낼 수 없는 정보를 얻을 수 있게 해주었다.
* transcriptome: coding and non-coding RNAs
* epigenetics: 후성적
* structural variations: 1kb 이상의 DNA region include inversion, insertions or deletions, copy number variants
* long reads: 한번에 연속으로 알아낸 sequence 가 길다는 뜻
* isoform: 같은 locus에서 생성된 mRNAs지만 gene function이 다른 것 (alternative splicing 같은 이유로 인해)
Mechanism and performance
PacBio sequencing 은 target DNA molecule이 replication 하는 동안 서열 정보를 알아낸다. Template은 SMRTbell (Fig 1) 이라고 불리는 closed, single-stranded circular DNA 이다. 이는 hiarpin adptor들을 target dsDNA에 붙여 만들어졌다.
SMRTbell 샘플을 SMRT cell (Fig 2) 이라 불리는 chip에 넣으면, SMRTbell이 zero-mode waveguide (ZMW) 라고 불리는 sequencing unit에 흩어진다. 각각의 ZMW에서 하나의 polymerase가 바닥에 고정되어 있고 이는 SMRTbell의 hairpin adaptor가 붙어 replication을 시작할 수 있도록 만들어졌다 (Fig 3). 4개의 fluorescen가 라벨되어있는 nucleotides가 SMRT cell에 넣어지고 특정 emssion spectrums를 만들어낸다. 이러한 Light pulse가 영상처럼 반복되면서 기록되고, 각 pulse로 base를 해석할 수 있다. 가장 최근 Platform 인 PacBio RS II는 대랻 0.5~4시간 분량의 영상을 만들어낸다. Replicate 되는 template 이 closed circle 이기에, 한쪽 strand 가 복제되도 계속해서 반대 strand를 복제한다. polymeraser가 소명을 다할때까지 반복될 수 있고 양쪽 strand를 다 복제하면 1 pass라고 칭한다. 이 때에는, continuous long read 가 adaptor sequences 에서 잘릴수도 있다. 이처럼 같은 sequence의 multiple CLR로 부터 circuler consensus sequence (CSS) 를 얻을 수 있다. target sequence 가 짧아서 많은 CLR이 만들어진다면 CSS의 정확도는 올라간다. 반면에 target sequence 가 길다면 정확도가 떨어질 것이다. PacBio sequencing 은 실시간이고 light-pulse 의 변화로부터 kinetic variation을 해석하기에, methylation 과 같은 base modification도 분석할 수 있다.
PacBio sequencing 의 최대 장점은 long read length다. PacBio RS II (+C4 chemistry) 는 평균 10kb 이상의 Read lenghs 를 뽐내며, N50와는 20kb이상을 보이고, 최대 60kb까지 읽어낸다. (Fig 4) SGS 와 비교했을때 훨씬 더 긴 read length를 읽을 수 있는 PacBio sequencin은 보다 더 정확한위치, repetitive sequence 부분을 거의 해결할 수 있다.
하지만 SGS와 비교했을때, 단점도 있다. 하나의 SMRT cell 에는 150,000 개의 ZMW들이 있지만, DNA molecule이 polymerase와 결합하지 못하거나, 하나이상의 DNA molecule이 ZMW에 들어가게되는 것 때문에 오직 35,000-70,000개만 성공적으로 읽을 수 있다. 보통 PacBio RS II을 통해서 SMRT cell 당 5~10억개의 base를 읽어낼 수 있다. 또한, Illumina HiSeq 2500처럼 high throghput 을 제공하지는 못한다.
또다른 단점은 continuous long reads의 에러가 꽤 높다는 것이다 (11~15%). 에러는 CLR에 랜덤하게 퍼져있기 때문에, circular consensus sequencing (CCS)을 통해서 에러비율을 줄일 수 있다. 15 coverage로 99%이상의 정확도를 낼 수 있다.
# of coverage <--> CSS read length 가 trade off 관계.
결론적으로 PacBio Sequencinㅎ은 very long reads 를 높은 에러와 low throughput로 읽어낸다. PacBio RS II + P6-C4. 다음 표는 다양한 Platform들을 비교한 것이다.
# Applications to genome research
De novo assembly
Problematic genomic regions
Characterization of structural variation
# Application to transcriptome research
transcript sequencing using Iso-Seq
Gene isoform identification using hybrid sequencing
Personal transciptomes
# Applications to epigenetics research
methylation detection