바이오 대표

[scRNAseq 논문] 싱글셀 데이터 핸들링 (10x genomics pipeline - cellranger) “Massively parallel digital transcriptional profiling of single cells” 2016 본문

논문

[scRNAseq 논문] 싱글셀 데이터 핸들링 (10x genomics pipeline - cellranger) “Massively parallel digital transcriptional profiling of single cells” 2016

바이오 대표 2023. 3. 5. 16:06

Abstract

10x Genomics (droplet-based system)

  • 3’ mRNA counting of tens of thousands of single-cell per sample
  • 8 samples at a time
  • 50% cell capture efficiency

~ 250k single cells across 29 samples 로 [1] sensitivity, [2] ability to detect rare population를 파악하고, 68k PBMC cells을 이용하여 [3] ability to characterize large (immune) population 를 실험하였다. 또한 골수 이식환자 데이터의 sequence variation을 이용하여 [4] host/donor을 구분하였다.

 

Results

The droplet-based platform enables barcoding of cells

핵심: GEM (Gel bead in Emulsion)

  • Gel bead
    • [1] sequenced adapters and primers
    • [2] 14bp GemCode barcode (from ~750,000 designed)
    • [3] 10bp UMI
    • [4] anchored 30bp oligo-dT
  • 8-channel microfluidic chip
    • Each channel ~100,000 GEMs, ~6 min, ~ thousands of cells in GEMs

GEM → cell lysis → cDNAs sheared → short-read sequencing → Output

Output은 [1] Read1 (cDNA insert 포함, 98 nt), [2] Read2 (UMI 포함), [3] I5 + sample indices(8bp), [4] I7 + cell barcoded 포함.

 

Technical demonstration with cell lines and synthetic RNAseq 

Data counts using Illumina NextSeq 500 for ~ 100k reads/cell

  • ~ 1,200 human cells (293T) → 38% of reads mapped to hg19 (exon)
  • ~ 1,200 mouse cells (3T3) → 33% of reads mapped to mm10 (exon)

UMI counts 를 이용하여 1,012 GEMs 가 cell을 포함하고 있다고 예측 할 수 있다. 만약에 해당 UMI counts 가 38% > 이라는 뜻은 cell-free RNA 가 적은 background 를 의미한다. multiplet rate 과 number of recovered cells은 linear relation을 보이고 cell capture rate은 cell 의 갯수에 상관없이 보통 50% capture rate을 보인다.

100k reads/cell 데이터에서 ~4,500 genes, ~27,000 transcripts (UMI counts) 를 얻을 수 있었고 UMI counts 는 다른 level의 GC content, Gene length 에서도 비슷한 결과를 보였다.

ERCC (external RNA cont rols consortium) 를 이용해서 cDNA conversion rate를 구할 수 있다. ERCC 는 biological로인해 생기는 bias가 없기에, CV^2 vs mean UMI counts 를 이용하여, biological 과 Technical variation 의 비율 정보를 알 수도 있다.

 

Detection of individual population in mixed samples → gene marker or SNV 이용했을때 비슷하게 성공

시스템이 얼마나 정확하게 heterogeneous population을 알아내는지를 위해 [1] 293T 와 [2] Jurkat cells (immortalized T cell line) 을 이용하여 실험하였다. SNV (~350)를 이용해서도 gene marker이용했을때와 비슷한 결과를 보인다.

 

Subpopulation discovery from a large immune population -> minor 한 셀 타입도 구분 가능

8-9k cells for each 8 channels → ~ 68k cells (~20k reads/cell, ~ 525 genes/cell, ~ 1300 UMI counts/cell)

Reference transcriptome profiles - scRNAseq of 10 bead-enriched subpopulation

 

Single-cell RNA profiling of cryopreserved PBMCs → fresh vs frozen 실험했을때 비슷한 결과

Data: scRNAseq from 3 weeks thawed(cryopreserved) cells of PBMCs from Donor A

Fresh vs frozen 실험했을때

  • Correlation gene expression similar (r = 0.96)
  • frozen PBMCs 에서 ≥2fold 를 보이는 gene 들이 존재했다 ( 반 이상이 riibosomal protein genes 이지만).
  • #of genes, UMI counts similar
  • A similar subpopulation of cells

Genotype-based method to detect individual cell population → SNV 이용 해서 donor/host cell 구분 살짝 가능

Hematopoietic stem cell transplant(HSCT) 조혈모 세포이식 → host vs donor cell 을 위함.

Data: PBMCs from Donor B and C (mixed insilico), ~8k each → ~15k reads/cell, ~50 SNVs/cell

  • 예전에는 flow-sorted, PCR을 이용하였는데 이는 cell surface marker, cell counts 에 제한을 받는다. 따라서 해당 논문에서는 de novo SNV calling 을 이용하여 donor 과 host cell을 구분한다. 해당 논문에서 제시하는 방법은 reference SNVs 를 이용하지 않고, transcriptome data 를 이용하여 직접 SNVs 를 예측한다.

Result: minor genotype (mixed ratio > 3 %) identify 가능하다. 해당 방법의 정확도는 # of SNVs/cell 즉 cell type, diversity between subject, VC sensitivity에 영향을 받는다. Donors B / C 를 50:50, 90:10, 99:1 로 실험했을때는 크게 구분하지는 못하지만 50:50 와 90:10으로 실험했을 때 결과가 비슷하다. 99:1 는 실패.

 

** 조현모세포란 우리 몸 안의 골수 (뼈 안에 존재하는 혈액세포를 생산)나, 말초혈액에 존재하며, 산소 운반 적혈구, 백혈구, 혈소판 등을 생산해내는 세포를 말한다. 조혈모 세포는 자기와 같은 세포를 만들 수 있는 자기복제 능력, 혈구들로 분화할 수 있는 혈구분화능력을 갖고 있다.

 

 

Single-cell analysis of transplant bone marrow samples

Data: cryopreserved BMMC from patients - before HSCT (AML027), after HSCT (AML035)

Result: SNVs 를 이용해서 실험하였는데, AML027 post-transplated 데이터에서는 group 2개를 발견하였지만, AML035는 실패하였다. 확인해보니, cell population 이 크게 다르다. (ex, healthy - T cells 비율 높음, AML027 post - developmental stage erythroids 비율 높음)

** AML: acute myeloid leukemia

 

Methods

ERCC assay

  • Spike-in RNA, estimated ERCC molecule counts 와 UMI counts 랑 비교하여 conversion efficiency 를 계산할 수 있다.
    • conversion efficiency: proportion of RNA molecules in a single cell that are successfully captured and converted into sequencing-ready cDNA (complementary DNA) during the experimental process.

ddPCR assay 를 이용하여 conversion efficiency 계산 가능하다.

 

Cell capture efficiency calculation

= (# of cells detected by sequencing / # of cell loaded into the chip)

** 근데 cell count 에 15-20% 에러 가능

 

Cell Ranger - sample demultiplexing, barcode processing, single-cell 3’ gene counting

[1] sample demultiplexing - 8bp sample index 와 14bp GemCode barcode를 이용하여 Read1, Read2 paired-end reads FATAQ를 만들어 준다.

[2] Raed2 에서 10bp UMI tags 정보를 알아낼 수 있다.

[3] cDNA insert 정보를 갖고있는 Read1 을 STAR 을 이용하여 reference genome 에 mapping한다.

[4] GemCode barcode 와 UMIs filter + 1-hamming-distance를 이용하여 error 가 있는 barcode seqeunce 를 수정해준다.

[5] UMI barcode 도 1-hamming-distance 를 이용해 수정해준다.

[6] PCR duplicates - GemCode barcode, UMI, gene ID 를 shared 한 reads를 mark 해준다. MAPQ 255 이상이고, non-PCR w/ valid barcode, UMI 인 read를 이용하여 gene-barcode matrix 를 만들어준다.

[7] UMI counts distribution (poission distribution) 을 이용하여 Cell barcode를 지정해준다. ???

[8] the number of Reads를 (1) cell barcodes, (2) UMI (3) associated with a cell barcode (4) mapped to exons 4개의 metrics로 만들어준다.

[00] CellRanger R kit를 이용하여 여러개의 channel 를 합치거나, 원하는 UMI counts / cell을 지정하여 subsampling 할수 있다. 여러개의 channel을 합치고 싶다면 gene-cell-barcode matrics를 concatenate (callranger aggr), 여러개의 run 을 합치고 싶다면 combining non-duplicated reads count (cellranger multi) 해준다.

 

 

 

노트

  • mean +- s.e.m (standard error of the mean)
    • sem : a measure of precision for an estimated population mean
  • CV (coefficient of variation)
    • CV = (SD/mean)* 100 으로, 보통 다른 mean, scale을 갖는 데이터셋에서의 variability를 비교할때 사용된다. scRNAseq 에서는 이를 이용하여 variability of gene expression across cells을 구할 수 있다. 만약 high CV 를 갖는 gene 은 cells에 따라 expression level 이 크게 variable 하다는 뜻이다.
  • template switch
    • RT 를 해주는 virus, MMLV 가 처음에 mRNA를 5’ → 3’ 로 synthesize 하고 마지막에 CCC 를 붙여준다. 여기에 TS oligo + GGG 를 이용하여 붙여주면 MMLV 가 literally template switch를 통해 other strand를 완성해준다.
  • SNV vs SNP
    • SNP (single nucleotide polymorphism) is also a single base substitution but limited to germline DNA and must be present in at least 1% of the population.
    • SNV (single nucleotide variant) is a variant of a single nucleotide in a population’s genome.
  • CellRanger Question homepage https://kb.10xgenomics.com/hc/en-us