바이오 대표

[NGS scRNAseq] Chromium 10x Illumina의 기본이해(workflow)와 Cell ranger count 본문

Bioinformatics/Tools

[NGS scRNAseq] Chromium 10x Illumina의 기본이해(workflow)와 Cell ranger count

바이오 대표 2022. 12. 18. 16:53

 

해당 포스트는 Illumina (10x) 기술을 이용한 single cell RNAseq 에 초점이 맞춰져 있습니다.

Chromium 10x single cell - Barcodes and UMI

Paired-end sequencing output 은 주로 5’ → 3’ 방향으로 읽힌 두개의 fastq files 이다. 첫번째 Read 1 (R1) 은 항상 primer 의 Cell barcode + UMI (unique molecular identifiers) 부분을 포함하고 Read 2 (R2)는 reverse sequence를 읽는다(figure 1.3을 참고). Sequencing 으로 얻어낸 reads (containing cell barcode, UMI and cDNA) 를 이용하여, transcipts 의 양을 추정하는 것이 목표이고 여기서 cell barcode 을 이용하여 cell type을 구별하고 UMI 를 이용하여 각 molecule (sequence)를 구별한다.

** Molecules ~ genes

 

Illumina chromium 10x single-cell sequencing

좀 더 자세한 설명은 http://nextgen.mgh.harvard.edu/IlluminaChemistry.html 참고

 

 

Cell Ranger

Cell Ranger은 Chromium single-cell (illumina scRNAseq) 데이터를 mapping 하고, feature(gene)-barcode(cell) matrices를 만들고, clustering 과 다른 분석등을 해주는 분석 파이프라인이다.. RNA reads count matrix 또한 만들어 준다.

즉 upstream analysis, fastq → counts matrix를 만들어주는 소프트웨어 이다.

  • Chromium 10x pipeline 알면 좋은 용어들
    • GEM well : single 10X chromim chip challel 에서 사용하는 Gelbeads-in-Emulsion이다. 만약 데이터들이 여러 GEM well 에서 생성이 되었다면, GEM 과 다른 GEM 의 bias 를 normalized 해줄 필요가 있다.
    • Library (sequencing libraray) : 보통 하나의 GEM well 에서 하나의 10x-barcoded sequencing library를 만들지만 경우에 따라서 여러 libraries을 만들 수 있다.
    • Sequencing Run (Flowcell): Sequencing 기계를 한번 돌린것이 one run 이다.

 

GENERAL WORKFLOW

Chromium 10x pipeline은 다음과 같이 다양한 workflow으로 진행될 수 있다. 만약 여러개의 GEM well 을 이용하였다면 cellranger agrr 를 이용하여 데이터를 합쳐줄 수 있고, 여러 samples 을 하나의 GEM well 을 이용하여 sequencing 을 하였으면, cellranger multi 를 이용할 수 있다. 해당 function들은 여러 데이터를 하나의 큰 matrix로 합쳐, 분석을 좀더 용이하게 할 수 있도록 도와준다.

 

OUTPUT FILES

Cell ranger 의 output 은 outs/ 폴더에 저장이 된다. 해당 폴더에는 sequencing data, the annotated read sequences, gene expression matrices 등이 존재한다.

 

Figure 2.2: outs 폴더 overview

각 파일에 대한 더 자세한 정보

Matrices

Web Summary .html

Secondary Analysis CSV

BAM

Molecule Info (h5)

Loupe File (.cloupe)

 

 

 

 

 

 

 

 

MATRICES

Chromium 10X 는 transcriptomes 뿐아니라, 모든 molecules을 sequencing 하기 때문에 background barcodes 가 생길 수 있다. Cell ranger 는 이를 특정 algorithm 을 사용하여 filtering 해주는데 이는 filtered_feature_bc_matrix 폴더에서 확인 할 수 있다. (위에 output files 참고 바람). Filter이 되지않는 Raw 파일에서 직접 filtering 을 하고싶다면 raw_feature_bc_matrix 폴더를 이용하면 된다. 각각 폴더는 세가지의 파일은 포함하고있다.

  • matrix.mtx.gz: reads counts 를 sparse matrices 로 저장한다. ( gene(row) X cell;barcode(column) )
  • feature.tsv.gz: 각 row = feature = gene 과 관련된 데이터를 저장한다.
  • barcodes.tsv.gz: 각 column = cell 과 관련된 데티어를 저장한다.

WEL SUMMARY .html

cell ranger 가 제공해주는 summary 와 analysis 를 html 형식으로 확인할 수 있다. 다음 figure에서 볼 수 있듯이, 크게 summary 와 gene expression 탭으로 분리가 된다.

해당 요약본에서 주의 깊게 보야할 내용은 다음 포스터에서 확인 할 수 있다. 

2022.12.19 - [Bioinformatics/NGS 기본지식] - [NGS scRNAseq] cellranger count 의 output 파일, summary.html 해석

 

 

reference

https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/what-is-cell-ranger

https://holab-hku.github.io/Fundamental-scRNA/raw2matrix.html#cell-ranger