일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- single cell
- DataFrame
- single cell rnaseq
- pandas
- ngs
- 싱글셀 분석
- single cell analysis
- matplotlib
- CUTandRUN
- Git
- drug muggers
- HTML
- EdgeR
- scRNAseq analysis
- js
- PYTHON
- github
- python matplotlib
- MACS2
- julia
- CSS
- cellranger
- Bioinformatics
- ChIPseq
- CUT&RUN
- scRNAseq
- 비타민 C
- drug development
- javascript
- Batch effect
- Today
- Total
바이오 대표
[scRNAseq 논문] 싱글셀 데이터 핸들링 (10x genomics pipeline - cellranger) “Massively parallel digital transcriptional profiling of single cells” 2016 본문
[scRNAseq 논문] 싱글셀 데이터 핸들링 (10x genomics pipeline - cellranger) “Massively parallel digital transcriptional profiling of single cells” 2016
바이오 대표 2023. 3. 5. 16:06Abstract
10x Genomics (droplet-based system)
- 3’ mRNA counting of tens of thousands of single-cell per sample
- 8 samples at a time
- 50% cell capture efficiency
~ 250k single cells across 29 samples 로 [1] sensitivity, [2] ability to detect rare population를 파악하고, 68k PBMC cells을 이용하여 [3] ability to characterize large (immune) population 를 실험하였다. 또한 골수 이식환자 데이터의 sequence variation을 이용하여 [4] host/donor을 구분하였다.
Results
The droplet-based platform enables barcoding of cells
핵심: GEM (Gel bead in Emulsion)
- Gel bead
- [1] sequenced adapters and primers
- [2] 14bp GemCode barcode (from ~750,000 designed)
- [3] 10bp UMI
- [4] anchored 30bp oligo-dT
- 8-channel microfluidic chip
- Each channel ~100,000 GEMs, ~6 min, ~ thousands of cells in GEMs
GEM → cell lysis → cDNAs sheared → short-read sequencing → Output
Output은 [1] Read1 (cDNA insert 포함, 98 nt), [2] Read2 (UMI 포함), [3] I5 + sample indices(8bp), [4] I7 + cell barcoded 포함.
Technical demonstration with cell lines and synthetic RNAseq
Data counts using Illumina NextSeq 500 for ~ 100k reads/cell
- ~ 1,200 human cells (293T) → 38% of reads mapped to hg19 (exon)
- ~ 1,200 mouse cells (3T3) → 33% of reads mapped to mm10 (exon)
UMI counts 를 이용하여 1,012 GEMs 가 cell을 포함하고 있다고 예측 할 수 있다. 만약에 해당 UMI counts 가 38% > 이라는 뜻은 cell-free RNA 가 적은 background 를 의미한다. multiplet rate 과 number of recovered cells은 linear relation을 보이고 cell capture rate은 cell 의 갯수에 상관없이 보통 50% capture rate을 보인다.
100k reads/cell 데이터에서 ~4,500 genes, ~27,000 transcripts (UMI counts) 를 얻을 수 있었고 UMI counts 는 다른 level의 GC content, Gene length 에서도 비슷한 결과를 보였다.
ERCC (external RNA cont rols consortium) 를 이용해서 cDNA conversion rate를 구할 수 있다. ERCC 는 biological로인해 생기는 bias가 없기에, CV^2 vs mean UMI counts 를 이용하여, biological 과 Technical variation 의 비율 정보를 알 수도 있다.
Detection of individual population in mixed samples → gene marker or SNV 이용했을때 비슷하게 성공
시스템이 얼마나 정확하게 heterogeneous population을 알아내는지를 위해 [1] 293T 와 [2] Jurkat cells (immortalized T cell line) 을 이용하여 실험하였다. SNV (~350)를 이용해서도 gene marker이용했을때와 비슷한 결과를 보인다.
Subpopulation discovery from a large immune population -> minor 한 셀 타입도 구분 가능
8-9k cells for each 8 channels → ~ 68k cells (~20k reads/cell, ~ 525 genes/cell, ~ 1300 UMI counts/cell)
Reference transcriptome profiles - scRNAseq of 10 bead-enriched subpopulation
Single-cell RNA profiling of cryopreserved PBMCs → fresh vs frozen 실험했을때 비슷한 결과
Data: scRNAseq from 3 weeks thawed(cryopreserved) cells of PBMCs from Donor A
Fresh vs frozen 실험했을때
- Correlation gene expression similar (r = 0.96)
- frozen PBMCs 에서 ≥2fold 를 보이는 gene 들이 존재했다 ( 반 이상이 riibosomal protein genes 이지만).
- #of genes, UMI counts similar
- A similar subpopulation of cells
Genotype-based method to detect individual cell population → SNV 이용 해서 donor/host cell 구분 살짝 가능
Hematopoietic stem cell transplant(HSCT) 조혈모 세포이식 → host vs donor cell 을 위함.
Data: PBMCs from Donor B and C (mixed insilico), ~8k each → ~15k reads/cell, ~50 SNVs/cell
- 예전에는 flow-sorted, PCR을 이용하였는데 이는 cell surface marker, cell counts 에 제한을 받는다. 따라서 해당 논문에서는 de novo SNV calling 을 이용하여 donor 과 host cell을 구분한다. 해당 논문에서 제시하는 방법은 reference SNVs 를 이용하지 않고, transcriptome data 를 이용하여 직접 SNVs 를 예측한다.
Result: minor genotype (mixed ratio > 3 %) identify 가능하다. 해당 방법의 정확도는 # of SNVs/cell 즉 cell type, diversity between subject, VC sensitivity에 영향을 받는다. Donors B / C 를 50:50, 90:10, 99:1 로 실험했을때는 크게 구분하지는 못하지만 50:50 와 90:10으로 실험했을 때 결과가 비슷하다. 99:1 는 실패.
** 조현모세포란 우리 몸 안의 골수 (뼈 안에 존재하는 혈액세포를 생산)나, 말초혈액에 존재하며, 산소 운반 적혈구, 백혈구, 혈소판 등을 생산해내는 세포를 말한다. 조혈모 세포는 자기와 같은 세포를 만들 수 있는 자기복제 능력, 혈구들로 분화할 수 있는 혈구분화능력을 갖고 있다.
Single-cell analysis of transplant bone marrow samples
Data: cryopreserved BMMC from patients - before HSCT (AML027), after HSCT (AML035)
Result: SNVs 를 이용해서 실험하였는데, AML027 post-transplated 데이터에서는 group 2개를 발견하였지만, AML035는 실패하였다. 확인해보니, cell population 이 크게 다르다. (ex, healthy - T cells 비율 높음, AML027 post - developmental stage erythroids 비율 높음)
** AML: acute myeloid leukemia
Methods
ERCC assay
- Spike-in RNA, estimated ERCC molecule counts 와 UMI counts 랑 비교하여 conversion efficiency 를 계산할 수 있다.
- conversion efficiency: proportion of RNA molecules in a single cell that are successfully captured and converted into sequencing-ready cDNA (complementary DNA) during the experimental process.
ddPCR assay 를 이용하여 conversion efficiency 계산 가능하다.
Cell capture efficiency calculation
= (# of cells detected by sequencing / # of cell loaded into the chip)
** 근데 cell count 에 15-20% 에러 가능
Cell Ranger - sample demultiplexing, barcode processing, single-cell 3’ gene counting
[1] sample demultiplexing - 8bp sample index 와 14bp GemCode barcode를 이용하여 Read1, Read2 paired-end reads FATAQ를 만들어 준다.
[2] Raed2 에서 10bp UMI tags 정보를 알아낼 수 있다.
[3] cDNA insert 정보를 갖고있는 Read1 을 STAR 을 이용하여 reference genome 에 mapping한다.
[4] GemCode barcode 와 UMIs filter + 1-hamming-distance를 이용하여 error 가 있는 barcode seqeunce 를 수정해준다.
[5] UMI barcode 도 1-hamming-distance 를 이용해 수정해준다.
[6] PCR duplicates - GemCode barcode, UMI, gene ID 를 shared 한 reads를 mark 해준다. MAPQ 255 이상이고, non-PCR w/ valid barcode, UMI 인 read를 이용하여 gene-barcode matrix 를 만들어준다.
[7] UMI counts distribution (poission distribution) 을 이용하여 Cell barcode를 지정해준다. ???
[8] the number of Reads를 (1) cell barcodes, (2) UMI (3) associated with a cell barcode (4) mapped to exons 4개의 metrics로 만들어준다.
[00] CellRanger R kit를 이용하여 여러개의 channel 를 합치거나, 원하는 UMI counts / cell을 지정하여 subsampling 할수 있다. 여러개의 channel을 합치고 싶다면 gene-cell-barcode matrics를 concatenate (callranger aggr), 여러개의 run 을 합치고 싶다면 combining non-duplicated reads count (cellranger multi) 해준다.
노트
- mean +- s.e.m (standard error of the mean)
- sem : a measure of precision for an estimated population mean
- CV (coefficient of variation)
- CV = (SD/mean)* 100 으로, 보통 다른 mean, scale을 갖는 데이터셋에서의 variability를 비교할때 사용된다. scRNAseq 에서는 이를 이용하여 variability of gene expression across cells을 구할 수 있다. 만약 high CV 를 갖는 gene 은 cells에 따라 expression level 이 크게 variable 하다는 뜻이다.
- template switch
- RT 를 해주는 virus, MMLV 가 처음에 mRNA를 5’ → 3’ 로 synthesize 하고 마지막에 CCC 를 붙여준다. 여기에 TS oligo + GGG 를 이용하여 붙여주면 MMLV 가 literally template switch를 통해 other strand를 완성해준다.
- SNV vs SNP
- SNP (single nucleotide polymorphism) is also a single base substitution but limited to germline DNA and must be present in at least 1% of the population.
- SNV (single nucleotide variant) is a variant of a single nucleotide in a population’s genome.
- CellRanger Question homepage https://kb.10xgenomics.com/hc/en-us